龙行天下 2007-5-6 16:04
51.com被百度封杀的真正原因,提醒大家注意
一个大站被百度封杀了,引发了很多的讨论,各方的观点都有
那么51.com被百度封杀的真正原因是什么呢?
[b]是因为51.com大量使用了frame[/b]
frame对搜索引擎是极不友好的,搜索引擎几乎抓取不到frame内的内容,大家可以在googlesite:[url=http://www.51.com]www.51.com[/url]看看,51.com的大部分网页都被google当作了补充材料。
不过不是frame对[wiki]搜索引擎优化[/wiki]只有负面作用
frame中如果关键字优化得当的话,反而不容易被正文内容冲淡,所以有些使用frame的网页反而在搜索引擎中的排名效果很好
[[i] 本帖最后由 小零 于 2007-6-25 17:12 编辑 [/i]]
rivalzhizhu 2007-5-6 23:03
不是他还修改了robots.txt 把所有文件都disallow?
haocy 2007-5-6 23:46
[quote]原帖由 [i]rivalzhizhu[/i] 于 2007-5-6 23:03 发表 [URL=http://cdn.tntbbs.com/redirect.PHP?goto=findpost&pid=29699&ptid=9680][img]http://cdn.tntbbs.com/images/common/back.gif[/img][/url]
不是他还修改了robots.txt 把所有文件都disallow? [/quote]
两位说的都有道理
不过修改robots.txt倒像更直接的原因
不过51.com出此招无异于上阵之前断臂自残
实属怪异::8::
hehe 2007-5-6 23:57
我们也许可以这样理解51的行为
1 51由于平台架构的问题,一直缺少搜索友情友好性,所以从搜索里的[wiki]流量[/wiki]非常少,到了无足轻重的地步,所以五一决策层在[wiki]MySPace[/wiki].cn上线的这段时间,修改了robots.txt,可能准备在搜索引擎结果消失后通过各种渠道炒作搜索引擎恶意竞争,这样51.com既没有什么损失,还提高了知名度,[WIKI]ALEXA[/wiki]排名,也许51.com还有下一步的举动。
2 或者51.com会对外宣布,51的流量可以不依赖于搜索引擎,拒绝搜索引擎收录这样来炒作一下
3 或者由于搜索引擎优化方面的问题,51.com正在调整系统架构,暂时限制搜索引擎收录,为的是今后有更多的收录?
阿童木 2007-5-7 10:27
51.com也许是想告诉大家,不是百度T51,是51T百度
yese 2007-5-8 11:36
[quote]原帖由 [i]hehe[/i] 于 2007-5-6 23:57 发表 [url=http://www.tntbbs.com/redirect.php?goto=findpost&pid=29705&ptid=9680][img]http://www.tntbbs.com/images/common/back.gif[/img][/url]
我们也许可以这样理解51的行为
1 51由于平台架构的问题,一直缺少搜索友情友好性,所以从搜索里的流量非常少,到了无足轻重的地步,所以五一决策层在myspace.cn上线的这段时间,修改了robots.txt,可能准备 ... [/quote]
比较赞同以上观点~
至于所谓的网站结构问题应该不是很关键的地方,更何况搜索引擎认不出来或是不理睬网页中的框架,不至于构成被封杀的原因。 51使用框架或许处于某些原因,而且他修改robots.txt显然是有很强的目的性(或许是在隐藏什么),不然谁会傻到自寻死路?
[[i] 本帖最后由 yese 于 2007-5-8 12:05 编辑 [/i]]
bobrow 2007-5-10 17:03
51的robots.txt:
User-agent: *
Disallow: /404.php
Disallow: /9588.php
Disallow: /addAccessCount.php
Disallow: /ad[wiki]DC[/wiki]lickCount.php
Disallow: /ConfirmPhoto.php
Disallow: /go.php
Disallow: /home.php
Disallow: /ip.php
Disallow: /jb.php
Disallow: /login.php
Disallow: /norz.php
Disallow: /rzphoto.php
Disallow: /send_msg_new.php
Disallow: /show_image.php
Disallow: /show_photo.php
Disallow: /update_9588_status.php
Disallow: /home/
Disallow: /abc/
Disallow: /cache/
Disallow: /Charge/
Disallow: /class/
Disallow: /[wiki]CMS[/wiki]/
Disallow: /face/
Disallow: /help/
Disallow: /hm/
Disallow: /i/
Disallow: /Image/
Disallow: /images/
Disallow: /Inc/
Disallow: /Interface/
Disallow: /js/
Disallow: /kongjian/
Disallow: /lib/
Disallow: /mid/
Disallow: /Music/
Disallow: /myie/
Disallow: /Photo/
Disallow: /port/
Disallow: /shengdanjie/
Disallow: /smc/
Disallow: /temp/
Disallow: /Templates/
Disallow: /user/
Disallow: /User/
Disallow: /v4images/
Disallow: /vda/
Disallow: /[wiki]web[/wiki]sync/
Disallow: /yijian/
小李飞帖 2007-6-11 12:07
51.com的robots.txt有错吗?
什么是robots.txt文件?
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
因为刚写了51是因为二级玉米泛滥和站点垃圾造成被封,去站长站看见“眼镜蛇”写的是因为51的robots.txt的原因。
我仔细看了51的robots.txt而最后要驳反“眼镜蛇”的判断和定论!
每个站点都必须要有robots.txt吗?
不一定,看情况
那么robots.txt是针对任何搜索引擎吗?
不一定,搜索引擎的概念是什么先搞明白!至少他有蜘蛛,并且遵循robots.txt语法。像百度,google,[wiki]yahoo[/wiki]都遵循
官方的robots.txt
robots.txt放在哪里?
根目录下,就是通过 [url]http://www.abc.com/robots.txt[/url]等浏览访问到的!
robots.txt怎么写?
请查询:[url]http://www.robotstxt.org/[/url]
因为眼镜蛇说百度杀了51是因为51的robots.txt
“51.com搜索消失原因是公司想借机炒作?”
(联系到五一国庆左右百度大规模检查并封杀作弊网站,开始让业界以为51.com是百度惩罚的网站之一,
通过某朋友提示到51.com的robots.txt文件,让大家明白了百度网站只收录一页的原因,
并不是搜索引擎人为所至,而是51.com自身原因。 )
郁闷一:五一成“国庆”了!
郁闷二:robots.txt写法遵循规则,搜索引擎也给予遵循!那么就是眼镜蛇以上文章的判定错误!不是51的robots.txt错误!
分析反驳:
因为51的主页都在home下或者这个二级玉米下,那么就这个来说!
1:[url]http://www.51.com/robots.txt[/url] 18行
Disallow: /home/ (假设只针对百度,因为google 没把51怎么着,而之后分析则套用google的一些现象对比百度,除非他们不是一样性质的遵循robots.txt的搜索引擎!)
百度给出的定义:
"Disallow:/help/"则允许robot访问/help.[wiki]HTML[/wiki],而不能访问/help/index.html
[url]http://www.baidu.com/search/robots.html[/url]
那么就是说在[url]http://www.51.com/home/index.htm/index.html/index.shtml[/url]不能被收录,因为home目录下无主页!
[url]http://www.51.com/home/index.htm[/url] 404错误
[url]http://www.51.com/home/index.html[/url] 404错误
[url]http://www.51.com/home/index.shtml[/url] 404错误
[url]http://www.51.com/home/index.php[/url] 404错误
[url]http://www.51.com/home/[/url] 404错误
确定HOME下无默认首页文件,一般都是404页,这样多搜索引擎会很不友好的,那么当然仔细点的站点都会杜绝被搜索引擎视为死连接。
51的错法就是"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html
判定:Disallow: /home/ 对于百度正确!
因为有:User-agent: * (针对所有搜索)
查看:s[wiki]IT[/wiki]e:51.com/home ,site:51.com/home/ ,site:[url]www.51.com/home[/url] , site:[url]www.51.com/home/[/url]
在google都有收录,而不是屏蔽了home下任何,而只是home下的默认首页!
目前看不见百度的现象,根据User-agent: * (针对所有搜索)说明百度当时也是这样!(80%一样)
再查:site:home.51.com
第一结果为
51 [wiki]博客[/wiki]网欢迎您home.51.com/ - 类似网页
似乎home.51.com/下有首页,似乎home目下也有首页!
我们点过去则跳转到[url]http://www.51.com/[/url],因为目前搜索引擎都可以识别和收录url转发而非跳转!
随便查下home.51.com/的站点访问使用情况!
比如:第二结果
献给我最爱的00
home.51.com/home.php?user=nicolelove - 5k - 补充材料 - 网页快照 - 类似网页
而你使用“[url]http://nicolelove.51.com[/url] ”也访问的是此“home.51.com/home.php?user=nicolelove”
也可以 :[url]http://www.51.com/home/Index.php?user=nicolelove[/url] (home下的任何其他文件可以收录和访问)
也可以:[url]http://51.com/home/Index.php?user=nicolelove[/url] 访问而到[url]http://www.51.com/home/Index.php?user=nicolelove[/url]
也可以:[url]http://www.51.com/home.php?user=aiyoweiyaaaa[/url]到[url]http://home.51.com/home.php?user=aiyoweiyaaaa[/url]
严格按照URL说这个可以说是多URL或者路径重叠,或者混乱,只是一些没告诉那些站长,只告诉站长
“[url]http://nicolelove.51.com[/url] ”就是你的主页url
补充:
<*** LANGUAGE="[wiki]JAVA[/wiki]***">
看下最后第三段代码!
搜索引擎在更多时是不允许这样的现象的。二级玉米和独立玉米都可以认为不同域下的站点和网页!
比如:[url]http://piaoge999.51.com[/url] 这个是不存在申请的url站站点,那么你输入回车后就会提示:该用户不存在
提示URL为:[url]http://home.51.com/home.php?user=piaoge999[/url]
点确定立即返回到“[url]http://www.51.com/[/url]”这样的做法稍微比404错误返回友好了一些,可是假如我今天申请了,明天51删除我了,
却在之前百度收录了我的[url]http://home.51.com/home.php?user=piaoge999[/url]或者[url]http://piaoge999.51.com[/url]呢?
那是不是现在该可以返回到[url]http://www.51.com/[/url]了呢?这个做法给搜索引擎造成多少麻烦?造成多少垃圾收录?
降低了多少百度的技术可靠性的讽刺?
在[url]http://www.yookee.org/d[wiki]ISP[/wiki]bbs_17_313_1.htm[/url]“[wiki]SEO[/wiki]优化之“不要轻易使用泛解析” 特别拿51来分析了的!
只是没这个写的详细,而这个文章飘哥则做了70%的分析列举说明。要说明的是51被封是联系到了滥用泛解析!
而反驳“眼镜蛇”的是针对他说51的robots.txt的问题造成被封!而51的robots.txt写法符合和遵循!
飘哥到今天还没使用过robots.txt,只是之前帮一个朋友从google拒绝收录而找历史记录发现他的玉米曾经存在robots.txt
内容写法是禁止收录此站。告诉之则给google写信给予了收录。因为那玉米停了一段时间,google则还是按照当时robots.txt给予封闭!
此文结束,51的robots.txt有错吗?51的robots.txt是针对百度的吗?百度是根据51的robots.txt把他杀了的吗?
zz
imagine 2007-8-12 11:16
好像原因都不是这些吧? 是百度故意转移注意力的 ::009:: ::009:: ::009::