发新话题
打印

网页抓取优先策略

本主题由 小李飞帖 于 2008-1-18 10:27 审核通过
 除新人区外,看帖均消费积分,请认真发帖与回帖获得积分,新人区外灌水三次永封。QQ:9901259赠积分。

网页抓取优先策略

网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要性高的呢?如何量化重要性呢?

      重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定。

      定义链接欢迎度为IB(P),它主要由反向链接(Backinks)的数目和质量决定。首先考察数目,直观地讲,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反策链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。

      定义链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包含“.COM”或者“HOME”的URL重要度高,以及具有较少斜杠(Slash)的URL重要度高等。

      定义平均链接深度为ID(P),此为笔者所创。ID(P)表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。

      最后,定义网页重要性的度量为I(P),它由以上两个量化值线性决定,即:

I(P)=a*IB(P)+β*IL(P)

      平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽可能地抓完,是合理科学的,最终被用户查询到的网页也往往是那些重要性高的网页。

      尽管这样看来已经足够完美,事实上,还是忽视了一个重要的要素--时间。时间导致万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以识别增加、修改及删除网页这3种网页变化的情况。
首发:杨帆网站策划[wiki]博客[/wiki](http://www.ccyyw.com

本站内容仅对天梯会员开放。查看全部内容:请登录或者注册
创亿网站策划机构杨帆创办。www.ccyyw.com

TOP

 除新人区外,看帖均消费积分,请认真发帖与回帖获得积分,新人区外灌水三次永封。QQ:9901259赠积分。

这个标题

在一本叫做《走进搜索引擎》的目录里面也出现了哦。。。不知道说的是不是一个东东。。。

2007年1月第1版,电子工业出版社,作者:梁斌

        第一章 引言
第一节 什么是搜索引擎
 第二节 搜索引擎的发展简史
  搜索引擎的发展历史
 第三节 搜索引擎大事快览
 第四节 国内著名搜索引擎
  百度(www.baidu.com
  中搜(www.zhongsou.com
  天网(e.pku.edu.cn)
  搜狗(www.sogou.com
 参考文献
第二章 搜索引擎概貌
 第一节 搜索引擎的主要需求
  查得快
  查得全
  查得准
  查得稳
 第二节 搜索引擎的大系统
  搜索引擎的体系结构
第三章 搜索引擎的下载系统
 第一节 爬虫的发展历史
  世界上第个爬虫
  爬虫的发展历程
 第二节 万维网及其网页分析
  蝴蝶结型的万维网
  万维网的直径
  万维网的规模及变化特征
  网页的特征
 第三节 有关爬虫的基本概念
  爬虫
  种子站点
  URL
  Backlinks
 第四节 网页抓取原理
  telnet和wget
  从种子站点开始逐层抓取
  不重复抓取策略
  网页抓取优先策略
  网页重访策略★
  Robots协议
  其他应该注意的礼貌性问题
  抓取提速策略(合作抓取策略)
 第五节 网页库
 第六节 下载系统回顾及未来发展
  参考文献
第四章 搜索引擎的分析系统
 第一节 知识准备
  HTML语言
锚文本(anchor text)
半结构化数据(Semi-structured data)
第二节 信息抽取及网页信息结构化
网页结构化的目标
建立HTML标签
通过投票方法得到正文
网页结构化过程回顾
第三节 网页查重
网页查重技术发展历史
网页查重实现方法
第四节 中文分词
什么是中文分词
通过字典实现分词
通过统计学方法实现分词
第五节 PageRank
PageRank的来由
PageRank的基本想法
PageRank的计算公式
PageRank的计算方法 ★
第六节 分析系统结构图
参考文献
第五章 搜索引擎的索引系统
第一节 知识准备
信息
索引
倒排索引、倒排表、临时倒排文件、最终倒排文件
其他概念
第二节 全文检索
全文检索
第三节 文档编号
编号的本质
文档编号的方法
游程编码
第四节 倒排索引
经典的倒排索引
正排索引(前向索引)
倒排索引
第五节 数据规模的估计
齐普夫法则
布尔检索模型下的索引规模估计★
第六节 涉及存储规模的一些计算
正排表与倒排表的合并
多个临时倒排文件的归并
倒排索引分布式存储
倒排文件缓存
倒排索引词典统计信息的计算
第七节 倒排索引文件的创建过程
创建倒排表
计算统计信息
参考文献
第六章 搜索引擎的查询系统
第一节 知识准备
什么是信息熵
检索和查询的区别
检索词和查询词的区别
自动文本摘要(Automatic Text Summarization)
第二节 网页信息检索
早期的检索模型
向量空间模型(Vector Space Models)
关键词权重的量化方法TF/IDF★
搜索引擎采用的检索模型
多文档列表求交计算
检索结果排序
堆排序
第三节 中文自动摘要
自动摘要的发展历史
自动摘要的含义和实现
第四节 生成搜索结果页
生成搜索结果页
第五节 搜索结果页的缓存
搜索结果页的缓存
第六节 推测用户查询意图
查询分类
推测信息类、事物类的查询意图
第七节 查询系统的当前热点和发展方向
查询系统的当前热点
参考文献
第七章 搜索引擎的其他话题
第一节 搜索引擎问与答
为什么搜索引擎的搜索速度这么快
为什么搜索引擎能够返回那么多的查询结果
为什么搜索引擎总能返回最想要的结果
搜索引擎如何大规模存储网页的
什么是SEO
什么是元搜索引擎
搜索引擎认为的作弊行为是哪些
如何进一步学习和了解搜索引擎发展的最新成果
第二节 搜索引擎未来的发展
新兴的搜索产品
搜索技术的未来
参考文献
附录A 搜索引擎系统结构全观图

[ 本帖最后由 elviscai 于 2008-1-18 10:55 编辑 ]

TOP

 除新人区外,看帖均消费积分,请认真发帖与回帖获得积分,新人区外灌水三次永封。QQ:9901259赠积分。

TOP

 除新人区外,看帖均消费积分,请认真发帖与回帖获得积分,新人区外灌水三次永封。QQ:9901259赠积分。
不错!

TOP

 除新人区外,看帖均消费积分,请认真发帖与回帖获得积分,新人区外灌水三次永封。QQ:9901259赠积分。
路过,SEO我只是一个菜鸟

TOP

 除新人区外,看帖均消费积分,请认真发帖与回帖获得积分,新人区外灌水三次永封。QQ:9901259赠积分。
学习学习
呵呵

TOP

 除新人区外,看帖均消费积分,请认真发帖与回帖获得积分,新人区外灌水三次永封。QQ:9901259赠积分。

TOP

发新话题