最大的网站策划、网站运营、网络营销人才免费学习、培训、认证、展示、交流、工作平台,服务国家经济建设与民族伟大复兴!
发新话题
打印

网站静态页面生成及网站数据采集的攻防2

 除新人区外,看帖均消费积分,请认真发帖与回帖获得积分,新人区外灌水三次永封。QQ:9901259赠积分。

网站静态页面生成及网站数据采集的攻防2

 再说一下我对HTML防采集却不防搜索引擎蜘蛛的一些经验:  我开发过几个采集程序,也研究过很多采集程序代码,所以对采集程序的原理还算是稍微有些了解。
  先说一下采集原理:
  采集程序的主要步骤如下:
  一、获取被采集的页面的内容
  二、从获取代码中提取所有用的数据
  一、获取被采集的页面的内容
  我目前所掌握的ASP常用获取被采集的页面的内容方法:
  1、用serverXMLHTTP组件获取数据
  '-----------------翟振恺(小琦)
  '创建对象
  Dim ObjXMLHTTP
  Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP")
  '请求文件,以异步形式
  ObjXMLHTTP.Open "GET",webURL,False
  ObjXMLHTTP.send
  While ObjXMLHTTP.readyState <> 4
  ObjXMLHTTP.waITForResponse 1000
  Wend
  '得到结果
  GetBody=ObjXMLHTTP.responseBody
  '释放对象
  Set ObjXMLHTTP=Nothing
  '-----------------翟振恺(小琦)
  End Function
  调用方法:
  GetBody(文件的URLf地址)
  2、或XMLHTTP组件获取数据
  CODE:[Copy to clipboard]Function GetBody(weburl)
  '-----------------翟振恺(小琦)
  '创建对象
  Set Retrieval = CreateObject("Microsoft.XMLHTTP")
  With Retrieval
  .Open "Get", weburl, False, "", ""
  .Send
  GetBody = .ResponseBody
  End With
  '释放对象
  Set Retrieval = Nothing
  '-----------------翟振恺(小琦)
  End Function
  调用方法:
  GetBody(文件的URLf地址)
  这样获取的数据内容还需要进行编码转换才可以使用
  CODE:[Copy to clipboard]Function BytesToBstr(body,Cset)
  '-----------------翟振恺(小琦)
  dim objstream
  set objstream = Server.CreateObject("adodb.stream")
  objstream.Type = 1
  objstream.Mode =3
  objstream.Open
  objstream.Write body
  objstream.Position = 0
  objstream.Type = 2
  objstream.Charset = Cset
  BytesToBstr = objstream.ReadText
  objstream.Close
  set objstream = nothing
  '-----------------翟振恺(小琦)
  End Function
  调用方法:BytesToBstr(要转换的数据,编码)'编码常用为GB2312和UTF-8

本站内容仅对天梯会员开放。查看全部内容:请登录或者注册

TOP

发新话题