首页 | Linux 基础 | 资讯动态 | Linux 应用 | Linux 服务器 | Linux 开发 | Linux 安全 | 专题 | 联盟论坛
  当前位置:主页>Linux 服务器>linux服务器应用>文章内容
在 Linux 上构建 Web spider
来源:www.unix5.com 作者:riechelr_hl 发布时间:2007-06-05  
fetch

合法性问题

在 Internet 上使用 Web spider 进行数据挖掘已经导致了一些法律纠纷,这些纠纷解决得不太顺利。Farechase 公司最近就被 American Airlines 以屏幕 scrape(实时进行的)为由而起诉。American Airlines 先是控告搜集数据行为违反了 American Airlines 的用户协议(可以在 Terms and Conditions 中找到)。当这种控告不成立之后,American Airlines 又指责这是一种侵入行为,并由此胜诉。其他的一些法律纠纷的缘由则是 spider 和 scraper 所占用的带宽影响了合法用户的使用。这些都是有效的权利声明,因此使得礼貌原则变得更加重要。更多信息请参阅 参考资料 部分。

结言:

在 Web 上爬行和搜索可能会非常有趣,有时也会非常有益。不过正如前面介绍的那样,这里也有一些合法性问题。在进行这种操作时,一定要遵循服务器上提供的 robots.txt 文件的指示,并将其结合到您的礼貌原则当中。一些新的协议,例如 SOAP,会让爬行对于普通的 Web 操作来说更为容易,并且所受的干扰更小。将来的一些努力,例如语义 Web,将会使得爬行更加简单,因此爬行的解决方案和方法还会不断发展。

 


共6页: 上一页 [1] [2] [3] [4] [5] 6 下一页
 
如果您对本文有任何疑问或者建议,请到论坛讨论区发表您的意见: >> 论坛入口
[收藏] [推荐] [评论(0条)] [返回顶部] [打印本页] [关闭窗口]  
  热点文章
·用Samba实现文件服务器功能
·在Linux上建立DNS服务器
·在linux下设置WWW Server
·用Linux建立局域网服务器
·如何设定管理SAMBA网络邻居服务
·如何建造Open WebMail伺服器(图
·如何建造Open WebMail伺服器二(
·DNS 基本观念与实际运用(图文讲
·Linuxconf DHCP伺服器架設与管理
·Linux系统下基于NUMA构建的服务
  相关文章
·在Linux上建立DNS服务器
·在linux下设置WWW Server
·用Samba实现文件服务器功能
·用Linux建立局域网服务器
·如何设定管理SAMBA网络邻居服务
·如何建造Open WebMail伺服器(图
·如何建造Open WebMail伺服器二(
·DNS 基本观念与实际运用(图文讲
·Linuxconf DHCP伺服器架設与管理
·Linux系统下基于NUMA构建的服务

本站信息源至:互联网络,均为学习,交流所用,如有版权问题,请联系我们.
站长QQ:397422079 E_mail:riechelr_hl@unix5.com
转载本站内容请注明原作者名.谢谢!