fetch。
合法性问题
在 Internet 上使用 Web spider 进行数据挖掘已经导致了一些法律纠纷,这些纠纷解决得不太顺利。Farechase 公司最近就被 American Airlines 以屏幕 scrape(实时进行的)为由而起诉。American Airlines 先是控告搜集数据行为违反了 American Airlines 的用户协议(可以在 Terms and Conditions 中找到)。当这种控告不成立之后,American Airlines 又指责这是一种侵入行为,并由此胜诉。其他的一些法律纠纷的缘由则是 spider 和 scraper 所占用的带宽影响了合法用户的使用。这些都是有效的权利声明,因此使得礼貌原则变得更加重要。更多信息请参阅 参考资料 部分。
结言:
在 Web 上爬行和搜索可能会非常有趣,有时也会非常有益。不过正如前面介绍的那样,这里也有一些合法性问题。在进行这种操作时,一定要遵循服务器上提供的 robots.txt 文件的指示,并将其结合到您的礼貌原则当中。一些新的协议,例如 SOAP,会让爬行对于普通的 Web 操作来说更为容易,并且所受的干扰更小。将来的一些努力,例如语义 Web,将会使得爬行更加简单,因此爬行的解决方案和方法还会不断发展。
共6页: 上一页 [1] [2] [3] [4] [5] 6 下一页
|