深入探讨：爬虫究竟是合法还是违法的？

访客安全防御 2021-10-15 1160 5 手机搜狐网

这个问题确实有些让人脊背发凉，只是简单的写了几行爬虫而已，却莫名其妙的进了局子，不知道还以为我们程序员是做军火生意的。但是千锋小编想说的是，你写的爬虫确定不违法吗？

所以，爬虫究竟是合法还是违法的？

爬虫作为一种计算机技术就决定了它的中立性，因此爬虫本身在法律上并不被禁止，但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析，正如水果刀本身在法律上并不被禁止使用，但是用来捅人，就不被法律所容忍了。

或者我们可以这么理解：爬虫是用来批量获得网页上的 *** 息的，也就是前端显示的数据信息。因此，既然本身就是 *** 息，其实就像浏览器一样，浏览器解析并显示了页面内容，爬虫也是一样，只不过爬虫会批量下载而已，所以是合法的。不合法的情况就是配合爬虫，利用黑客技术攻击网站后台，窃取后台数据（比如用户数据等）。

举个例子：像谷歌这样的搜索引擎爬虫，每隔几天对全网的网页扫一遍，供大家查阅，各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。但是像抢票软件这样的爬虫，对着 12306 每秒钟恨不得撸几万次，铁总并不觉得很开心，这种就被定义为“恶意爬虫”。

爬虫所带来风险主要体现在以下3个方面：

1、违反网站意愿，例如网站采取反爬措施后，强行突破其反爬措施；
2、爬虫干扰了被访问网站的正常运营；
3、爬虫抓取了受到法律保护的特定类型的数据或信息。

那么作为爬虫开发者，如何在使用爬虫时避免进局子的厄运呢？

1、严格遵守网站设置的robots协议；
2、在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
3、在设置抓取策略时，应注意编码抓取视频、音乐等可能构成作品的数据，或者针对某些特定网站批量抓取其中的用户生成内容；
4、在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。

可以说在我们身边的 *** 上已经密密麻麻爬满了各种 *** 爬虫，它们善恶不同，各怀心思。而越是每个人切身利益所在的地方，就越是爬满了爬虫。所以爬虫是趋利的，它们永远会向有利益的地方爬行。技术本身是无罪的，问题往往出在人无限的欲望上。因此爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。