最大的网站策划、网站运营、网络营销人才免费学习、培训、认证、展示、交流、工作平台,服务国家经济建设与民族伟大复兴!
天梯网站策划论坛首页顶部banner

查看完整版本: 个人的防采集心得(转)

bobrow 2007-1-13 12:56

个人的防采集心得(转)

[table=98%][tr][td][size=2]个人的防采集心得

[/size][size=12px]因为比较懒。

如何防采集 但不影响搜索引擎?

首先就要了解他们的目的。

采集:按自己的需求分类,取得自己需要的资料,删除不必要的资料
搜索:按URL抓取,取得页面所有文字,并根据[wiki]标签[/wiki]判断某部分资料的重要性

也就是说 一旦做到 无论任何采集都必须删除自己不需要的部分,留下自己需要的部分,而搜索则不必要这样做,因为任何资料对他们来说都是资源

我认为这是他们的唯一区别了。

然后说他们的工作原理

采集:从某一URL设置规则,通过这个URL来分析资料-删除不需要的 将需要的资料入库。
搜索:从网站首页抓取所有URL列表,然后一级级的爬下去。

目前采集都是从列表页抓正文URL,防止这个 首先列表页的URL 就不能有任何关联,这样通用采集器就很难采了。
但很多高手都是自己写采集器,可以抓取分页部分的列表内容,他们要抓就需要一个固定的标签来取得分页列表的 链接,所以这一步就是让其分页部分无规律,标签不能重复,多准备几套模板或者其他内容来做分页部分的标签。

正文:我想有两种办法,一就是使用正文分页,见过几个站 几乎每个正文都有3-4页以上,同时很多分页模式是不同的,有用图片的、有用文字的 有些同正文混合在一起,有些则单独被放在一个标签内。 这样难度是可想而知的。
然后再说采集的原理:从一个开始标签-到-一个结束标签,这个标签如果有唯一性是比较简单的,如果非唯一 一般就要指定是第几次出现这个标签,然后用固定手法剔除标签内自己不需要的内容。

说来说去还是要完成一个随机性,页面代码可能完全不同 让采集者根本无从下手,这个如果做好了 几乎可以防范99.9999999999%的采集者了

如果是[wiki]PHP[/wiki]的页面的话,还可以完成另一个随机性,第一次访问时随机使用一种模板,某一个[wiki]IP[/wiki]访问次数太多  就自动更换模板。 可以是5 也可以是10 这对访问者和搜索引擎来说几乎是不存在问题的,但对采集来说是一个严重的问题。
这样一来即使是使用代理IP的采集器 也会存在一个痛苦的问题。

还有一个问题就是分类了,如果你使用的分类够多,每个分类下资料只有一点点,那么采集者也会累的。 如果你的资料真的值钱到这样也采,那你再防也没用,人家直接用人肉 也不错。

最终结果:个人想法就是 使用更多的模板套系,每一套模板完全不能有相同,你可能认为这工作量太大了,但这比录入内容始终是快的。
如果你的资料都是采集来的,也就别做这么麻烦了 不至于,别人从其他站上一样能采集的到。[/size] [/td][/tr][/table]

bobrow点评:
原作者说的三个方法
1. 随机分页链接
2. 内容分页
3. 随机模版
这三个方法可以阻止不少一般的采集器,但是采集器稍加改进,就可以突破此三个防范方法,虽然采集效率会降低。不过原作者提出的这些方法还算不错。

王义辉 2007-1-13 15:29

既要防采集,还不能影响搜索引擎友好性::25::

小李飞帖 2007-1-13 23:09

::39::

追梦ren 2007-1-29 18:03

PHP的SOCKET(套接字) 是可以持续连接的,也就是说你的变换模板没用

cnno100 2007-2-4 12:13

不错的说!

xiao_feng 2007-2-9 22:15

::36::
页: [1]
查看完整版本: 个人的防采集心得(转)