最大的网站策划、网站运营、网络营销人才免费学习、培训、认证、展示、交流、工作平台,服务国家经济建设与民族伟大复兴!
网络创业秘籍预定banner

查看完整版本: 网站静态页面生成及网站数据采集的攻防3

jyhccc 2007-3-21 18:16

网站静态页面生成及网站数据采集的攻防3

二、从获取代码中提取所有用的数据  目前我掌握的方法有:
  1、用[WIKI]ASP[/wiki]内置的MID函数截取需要的数据
  CODE:[Copy to clipboard]Function body(wstr,start,over)
  '-----------------翟振恺(小琦)
  start=Newstring(wstr,start)
  '设置需要处理的数据的唯一的开始标记
  over=Newstring(wstr,over)
  '和start相对应的就是需要处理的数据的唯一的结束标记
  body=mid(wstr,start,over-start)
  '设置显示页面的范围
  '-----------------翟振恺(小琦)
  End Function
  调用方法:body(被采集的页面的内容,开始标记,结束标记)
  2、用正则获取需要的数据
  CODE:[Copy to clipboard]Function body(wstr,start,over)
  '-----------------翟振恺(小琦)
  Set xiaoqi = New Regexp'设置配置对象
  xiaoqi.IgnoreCase = True'忽略大小写
  xiaoqi.Global = True'设置为全文搜索
  xiaoqi.Pattern = "”&start&“.+?”&over&“"'正则表达式
  Set Matches =xiaoqi.Execute(wstr)'开始执行配置
  set xiaoqi=nothing
  body=""
  For Each Match in Matches
  body=body&Match.Value '循环匹配
  Next
  '-----------------翟振恺(小琦)
  End Function
  调用方法:body(被采集的页面的内容,开始标记,结束标记)
  采集程序祥细思路:
  1、取得网站的分页列表页的每页地址
  目前绝大部分动态网站的分页地址都有规则,如:
  动态页
  第一页:index.ASP?page=1
  第二页:index.asp?page=2
  第三页:index.asp?page=3
  .....
  静态页
  第一页:page_1.htm
  第二页:page_2.htm
  第三页:page_3.htm
  .....
  取得网站的分页列表页的每页地址,只需要用变量替代每页地址的变化的字符即可如:page_.htm
  2、获取被采集网站的分页列表页内容
  3、从分页列表代码中提取被采集的内容页面的URL连接地址
  绝大部分分页页面里的内容页连接也有固定规则,如:
  [font=Verdana]<a href="url1">连接1</a> <br>
      <a href="url2">连接2</a> <br>
      <a href="url3">连接3</a> <br>[/font]
页: [1]
查看完整版本: 网站静态页面生成及网站数据采集的攻防3