爬虫技术的是与非，警觉网络爬虫侵权边界！

misa2 03-06 4次浏览 0条评论

网络上随处可见的引人进胜的网文，纷繁复杂的阅读APP，而这些网文APP上面的书源是从来的呢？

滥用爬虫技术面临刑事风险

2020年北京市海淀区人民法院审结了一起侵犯著作权罪案件，被告单位鼎阅公司在覃某某等12人的组织下未经掌阅科技股份有限公司、北京妄想纵横网络技术有限公司等权利公司许可，利用网络爬虫技术爬取正版电子图书后，在其妥善运营的“鸿雁传书”“TXT全本免费小说”等10余个App中展示，供他人访问并下载阅读，并通过广告收进、付费阅读等方式进行牟利。

据此，一审法院判决：鼎阅公司及覃某某等12名被告人均犯侵犯著作权罪，判处鼎阅公司罚金150万元；判处覃某某等四人有期徒刑三年，罚金80至20万元不等；判处陈某等五人有期徒刑一年十个月，罚金15万元；判处陈某某、梁某某二人有期徒刑一年六个月、缓刑二年，罚金分别为8万元、5万元；判处王某某有期徒刑一年三个月、缓刑一年六个月，罚金3万元。一审宣判后，各方均服判，未提起上诉。

此案系“2020年度北京法院知识产权司法保护十大案例”，本案作为北京市近年来破获的涉案人员最多、涉案作品种类最多、影响最大的一起网络侵犯著作权犯罪案件。本案涉及网络电子书侵权的新类型犯罪，其犯罪手段、对象及途径新奇，具有其代表性。

强化边界意识坚守业务底线

网络爬虫极大的便利了我们的生活，然而在本案中鼎阅公司、直接负责的主管人员覃某某等12名被告人以营利为目的，未经著作权人许可，复制发行他人享有著作权的文字作品，属于网络爬虫技术过界使用、非法使用。

橘生淮南则为橘，生于淮北则为枳。网络爬虫伴随着互联网的发展，目前已经被广泛而成熟地使用于各种互联网平台、大数据领域及使用场景。合规合法地使用网络爬虫，同样能保护原创作者及平台的权益。

互联网信息泛滥的时代，原创作品即使被抄袭，原创作者也可能不知道，即使被发现了，摘用人工搜集侵权证据，无疑是非常大的工作量，搜集的证据也很难保证全面。如本案中的是小说，人工筛查全网侵权还是有可能实现的，但当原创主体为字体、音乐、图片、PDF论文等内容形态时，往往很难人工全网收集全面的侵权证据。人工智能、OCR图像识别、内容查重等使用应运而生，他们正是基于网络爬虫技术而架构的原创保护技术，建立多维数据摘集的模型，在全网海量数据中基于强大的算法技术支撑，能全面筛选出侵害原创作者或平台权益的作品。

展开全文

网路爬虫由于技术本身的特征，广泛使用于搜索引擎、数据摘集、广告过滤、大数据分析等，发扬着积极正面的价值。我们之所以能在纷繁复杂的网络信息中，正确的依据我们提供的搜索词得到我们想要的数据，少不了“勤勤恳恳”的网络爬虫的功勋。正是因为网络爬虫的参与，方才构建起现今多姿多彩的网络社会。

本案中，爬虫技术网络挠取行为的对象也与通常案件的对象不同，对比鉴定检材提取形式、手段及鉴定结论合法性认定，在电子书的侵权证据收集认定方面也离不开网络爬虫的助力。

筑牢安全防线敲响合规警钟

爬虫技术具有技术中立性，新的局势下，如何将网络爬虫用于正面场景，并且避免违规使用带来的法律后果是各大企业，个人亟需解决的问题。

首先企业应当在法律答应的领域内审慎运用爬虫软件获取及使用数据，其次不得实施避开或突破计算机信息系统的安全保护措施，未经许可进进他人的计算机系统爬取数据的行为。作为互联网从业者，不仅要高度重视信息系统安全，更要严厉落实相关法律法规要求，合法合规开展自身业务。

趣书网txt官网

“国心”运营公司及关联方因涉嫌传销被瑞昌市人民法院冻结账户基于练习和推理场景下的MindStudio高精度对比