辉说合规 || 以案说法之网络爬虫的法律风险

屏幕快照 2020-04-20 15.26.07.png

网络爬虫是什么?Robots协议是什么?

网络爬虫的昵称很多,比如网络蜘蛛、网络机器人、网络游客等,其本质是一个程序,通过一定的编程手段,可以实现对于互联网上目标数据的批量获取。爬虫技术最初应用于搜索引擎领域,也是搜索引擎获取数据来源的重要技术之一;在数据即是生产力的今天,纷繁庞杂的互联网中裹挟着大量信息和数据,为了筛选并高效地获取特定数据,网络爬虫具有了更多的应用场景,诸如比价软件、抢票软件、新闻平台内容生成、App订阅推送等。

与网络爬虫相关的robots协议,其全称是Robots Exclusion Protocol(网络爬虫排除标准)。根据robots协议,robots.txt被放置在网站或者次级域名的根目录中,以此告诉网络爬虫该网站的哪些内容可被获取,哪些不能被获取。

网络爬虫采用自动化数据收集技术,在提升数据收集效率的同时,如果被不当使用,可能触及相关行政责任、民事责任和刑事责任。大辉哥注意到,司法实践中不乏因不当使用网络爬虫技术,进而被判决构成不正当竞争而承担民事责任,甚至构成犯罪被判决承担刑事责任的案例。接下来,请跟随大辉哥一同了解近期关注度较高的司法案例。

 

网络爬虫需谨慎


(一)民事责任(不正当竞争)

在大数据时代的背景下,数据是网络运营者的一项重要商业资源和竞争优势,第三方未经网络运营者充分授权或者绕过网络运营者的技术手段使用网络爬虫获取网络运营者的数据,可能构成不正当竞争行为。下述两起典型案例值得关注:

 

酷米克 v 车来了

屏幕快照 2020-04-20 15.26.48.png

辉说

本案的意义在于明确酷米客App后台服务器存储的公交实时类信息数据不属于“公共信息”,而系谷米公司的无形财产,应当属于受反不正当竞争法保护的法益。大辉哥建议互联网从业者要尊重同行的商业资源,勿爬取商业模式相同或近似的第三方的后台数据破坏他人的竞争优势。


百度 v 360

屏幕快照 2020-04-20 15.28.36.png

辉说:

Robots协议虽名为“协议”,但并非法律意义上的协议或合同,而是由网站所有商单方编写的技术规范,旨在向网络爬虫发出指令告知允许和禁止访问/抓取网站内容的范围,并不会起到强制禁止访问/抓取的作用。尽管如此,司法实践层面认为robots协议已经成为了一种国内外互联网行业内普遍通行、普遍遵守的技术规范,违反robots协议爬取第三方数据可能会被认为违反《反不正当竞争法》第二条中所述的经营者应当遵守的“公认的商业道德”。特别是对于加入《自律公约》的主体而言,《自律公约》第七条明确规定“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)”,大辉哥建议在使用爬虫技术爬取第三方数据时应遵守robots协议。

 

(二)刑事责任

不当使用网络爬虫技术的刑事风险,根据行为、结果的不同主要分为以下几类:

1、 通过网络爬虫技术对计算机信息系统实施侵入动作,或为上述侵入提供程序、工具:

网站或App采取了反爬技术措施,爬虫绕过或突破网站或App运营方设置的反爬技术措施侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统,“侵入”这一动作本身可能会被认定为构成非法侵入计算机信息系统罪。除了“侵入”动作本身,为“侵入”提供程序、工具,亦可能构成犯罪(即提供侵入、非法控制计算机信息系统程序、工具罪)。

 

非法侵入计算机信息系统罪

屏幕快照 2020-04-20 15.29.10.png

辉说:

司法实践中,“侵入计算机信息系统”的常见表现形式为破解或者盗窃身份认证信息、强行突破安全工具等。国家事务、国防建设、尖端科学技术领域的计算机信息系统对国家数据安全具有重要意义,通常均会设置系统安全保护措施,请勿使用网络爬虫技术突破其网站或App上的安全保护措施或反爬技术措施。

 

提供侵入、非法控制计算机信息系统程序、工具罪

屏幕快照 2020-04-20 15.29.44.png

辉说:

大辉哥提示,切勿以为未直接利用爬虫技术爬取数据就不会触犯法律,为他人提供程序、工具亦可能触犯刑法。

 

2、 产生破坏结果

利用爬虫技术爬取数据时,如对计算机信息系统功能或计算机信息系统中存储、处理或者传输的数据和应用程序进行破坏,或者故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,可能会触犯破坏计算机信息系统罪。与非法侵入计算机信息系统罪和提供侵入、非法控制计算机信息系统程序、工具罪不同,破坏计算机信息系统罪强调“后果”[ii]。

 

破坏计算机信息系统罪

屏幕快照 2020-04-20 15.30.23.png

屏幕快照 2020-04-20 15.30.30.png

辉说:

国家互联网信息办公室于2019年5月28日发布了《数据安全管理办法(征求意见稿)》,其中亦强调了使用爬虫技术不得影响网站正常运行[iii]这一原则。大辉哥建议,使用爬虫技术爬取数据时,需要优化自己的代码,避免干扰被访问网站的正常运行,更要避免对计算机系统造成破坏。

 

3、 非法获取或实施控制

利用爬虫技术,非法侵入国家事务、国防建设、尖端科学技术领域之外的计算机信息系统,获取存储、处理或者传输的数据或对系统实施非法控制,可能构成非法获取计算机信息系统数据罪、非法控制计算机信息系统罪。而如果非法获取了特定的信息,如以营利为目的,获取文字、电影、音乐等作品的内容并进行复制传播,可能构成侵犯著作权罪;如获取公民个人信息以此进行牟利,可能构成侵犯公民个人信息罪。

 

非法获取计算机信息系统数据罪


屏幕快照 2020-04-20 15.31.33.png

屏幕快照 2020-04-20 15.31.40.png


辉说:

前文提及的非法侵入计算机信息系统罪系针对“国家事务、国防建设、尖端科学技术领域的计算机信息系统”,非法获取计算机信息系统数据罪、非法控制计算机信息系统罪系针对前述之外的计算机信息系统。大辉哥提醒,切勿以为不是国家事务、国防建设、尖端科学技术领域的计算机信息系统就可以随意爬取其中数据了。

 

侵犯著作权罪

屏幕快照 2020-04-20 15.32.36.png

屏幕快照 2020-04-20 15.32.43.png

辉说:

大辉哥建议,爬虫技术使用者应当提高知识产权意识,并尊重第三方知识产权,在设置抓取策略时,应注意禁止抓取视频、音乐、小说、游戏等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容。

 

侵犯公民个人信息罪

屏幕快照 2020-04-20 15.33.40.png

辉说:

近年来,国家对个人信息保护的立法及监管趋严。因此,重要的事情说三遍:切勿爬取个人信息!切勿爬取个人信息!切勿爬取个人信息!

 

大辉哥今天的案例分享到这里就结束了,但网络爬虫涉及的知识点远不止于此。数据合规之路任重而道远,且听大辉哥下回分解。

 

[i]特别地,在该民事案件审理前,广东省深圳市南山区人民法院已作出(2017)0305刑初153号刑事判决,认定元光公司相关人员违反国家规定,采用其他技术手段,获取计算机信息系统中储存的数据,情节特别严重,构成非法获取计算机信息系统数据罪。

[ii]《最高人民法院最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》第四条和第六条亦对“后果”进行了量化。

[iii]第十六条:网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。


版权与免责

本文章仅供业内人士参考,不应被视为任何意义上的法律意见。未经北京世辉律师事务所书面同意,本文章不得被用于其他目的。如需转载,请注明来源。如您对本文章的内容有任何问题,可联系本文作者牛振宇律师、谢昕律师、罗雨律师、申畅律师或您熟悉的其他世辉律师。