公司使用爬虫技术,怎么规避风险?也成一个大难题

2015年,某公司指示5名程序员使用网络爬虫从某公司服务器获取公交出行信息、到站信息等数据。这五名程序员承担连带责任。

2019年,某公司高管张、宋、侯、郭利用爬虫技术非法爬取北京字节跳动服务器存储的视频数据。被告人被依法判处9-10个月有期徒刑。并被罚款。

越来越多的案例让开发者越来越不安,爬虫也违法了?公司要我爬数据,我爬还是不爬?爬?违法的,不爬,不好。

不仅是开发者,企业使用爬虫技术,存在很多风险。

2012年,360搜索爬取百度等网站内容,最终被责令赔偿百度70万元;

2017年坐标反算程序,秀淘非法盗取今日头条内容,被告人被判处九个月以上一年以下有期徒刑,并处罚金。

企业在使用爬虫技术时如何规避风险?也成了大问题。

仔细研究爬虫相关案例,我们不难得出如何合法使用爬虫技术规避风险的结论。

遵守机器人协议

机器人是网站和爬虫之间的君子协定。当网站拒绝爬虫访问和爬取数据时,可以在根目录下存放robots.txt文件,告诉爬虫不要爬取网站的全部或部分指定内容。

只要是Robots中的内容,爬虫是不允许访问的。在360搜索爬取百度内容的案例中,正是因为360违反了Robots协议,最终获得了70万元的赔偿。

但是,网站没有本协议并不代表可以随意抓取数据,也有可能是违法的。

爬行动物行为

使用爬虫技术的开发者,如果请求频率太高,接近DDoS攻击的频率,一旦目标服务器瘫痪,这不是爬虫行为,而是黑客行为,必须承担相应的责任。

防爬措施

如果目标网站使用了BotGuard爬虫管理等云产品对爬虫进行控制和管理,或者采取了一些防止爬取的措施,或者普通用户无法访问的页面。如果开发者强行突破这些措施,也将被定义为黑客攻击。

抓取内容

爬取的内容是高压线,不得触碰。包括但不仅限于:

1.爬取用户信息牟利

2018年,新三板上市公司北京睿智华盛科技股份有限公司利用爬虫非法窃取用户个人信息30亿条。该公司及其关联公司的6名犯罪嫌疑人被控制。

用户个人信息属于敏感信息坐标反算程序,近年来打击力度不断加大。严禁使用爬虫爬取这些信息。

2.爬取业务数据

2018年,武汉远光科技有限公司法定代表人指使4名员工非法抓取竞争对手数据,被判处罚款50万元。

很多企业为了获得竞争优势,会使用爬虫技术来爬取竞争对手的内容,但这种方式会构成不正当竞争。

3.爬取知识产权数据

抓取大量具有知识产权的数据并将其用于商业目的是违法的。

不难看出,爬虫技术本身并不违法,关键在于使用方式和使用目的。最后,总结一下,爬取数据有几个雷区。首先,它只能抓取公共数据。第二,不能影响目标业务和网站。三、目标网站全部或部分未采用反爬取措施。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论