深度

全国首例AI犯罪，为何会出现在信息倒卖的黑色产业链中？

作者

2017年9月28日

时代变得太快，当部分科技敏感者还在呼吁预防AI犯罪之时，犯罪已经发生。绍兴警方日前破获全国首例利用人工智能犯罪的案件，为人们敲响了警钟。但很多人可能会不以为然，因为整个案件仍旧是信息倒卖实施网络犯罪的老把戏，稍微不同的是，人工智能技术被运用于其中。

信息倒卖的黑产链条

每个故事都有一个狗血的开头。2017年年初，绍兴市的虞小姐由于太过信任QQ好友，为其支付网购代付1000余元，但对方并没有停止支付请求。回过神的她拨通了好友电话，却被告知QQ被盗，心有不甘的她立刻拨打了报警电话。

随之而来的是警方漫长的侦查。在对个人信息账号密码买卖这条线索进行深挖后，扒出的却是一条从非法获取网站后台数据，利用撞库软件和人工智能技术控制用户账号，再实行网络诈骗的互联网黑色产业链。

这条见不得光的产业链，由4个环节构成，数据获取、数据撞库、数据销售、数据犯罪。犯罪团伙首先通过黑客技术等非法手段获取网站后台用户数据，再通过分门别类将数据卖给下线。制作撞库软件的下线通过软件对数据进行批量匹配实施撞库。举例来说，部分用户在A、B网站使用的账户和密码可能是一致的，通过已泄露的A网站的账户密码，可以尝试在B网站进行登录。

在撞库匹配时，往往需要输入验证码。警方所说的人工智能犯罪正是出在输入验证码的这个节骨眼上。最终警方共抓获涉嫌犯罪团伙43个、犯罪嫌疑人193人，并查获各类公民个人信息10亿余条，缴获赃款600余万元（涉案金额高达5000多万）及大量作案工具。与以往通过人工智能作安防预防犯罪不同，在此次案件中人工智能扮演了一个帮凶的角色。

为何AI被用于打码？

验证码，英文CAPTCHA，Completely Automated Public Turing Test to Tell Computers and Humans Apart （全自动区分计算机和人类的图灵测试）的简称。简单来说，验证码用以区分面前是人还是机器。CAPTCHA作为程序算法，能够生成并评价人类容易通过而机器难以通过的测试，从而有效对抗大面积的机器访问。

验证码通过不断演进，逐渐成为了各大互联网公司对抗网络黑产的安全策略。除了撞库的输入验证码（打码），目前也存在大批量注册各大平台以发布广告等信息，或者为薅羊毛而大批量注册账户，这些情形都需要大批量打码。目前常见的验证码包括字符、字符+点选、图像+点选（12306式）等。就在验证码演化的同时，黑产也在形成应对手段。

最简单的做法是借助人工的方式，曾经有部分不正当网站借助自身的高流量，让游客免费帮忙输入验证码；一些则依靠付费的人工方式进行打码。但是，过于庞大的量级（数以亿计）以及网站在发现数据泄露后可能告知用户，都在迫使撞库团队采用更为迅速有效的方式进行打码。

被打掉的“快啊答题”打码平台，便通过使用AI训练机器以及深度学习功能，实现了高于人类的99%的准确率。此外，在该平台被打掉的前3个月里，它提供验证码识别服务259亿次。假如人类一秒钟完成一次打码（基本做不到），要完成259亿次打码，所需时间为821年。“时间就是金钱”，“快啊答题”曾以15元/10000验证码的价格提供服务，暴利可想而知。

它是如何做到的？

那么“快啊答题”这一AI打码神器又是如何实现的？事实上，“快啊答题”在整个黑产链条中扮演的只是接收验证码、进行识别、完成识别、反馈答案的过程。简单来说，就是为黑产用户快速提供验证码以便完成验证。

这个过程复杂吗？早期的打码平台，通常采用“人工+ OCR降维识别图片”的方式。OCR是指用字符识别方式将字符形状转换成计算机文字的形状。但在互联网验证码安全策略升级后，这种识别方式效率低、成本高。于是，采用更新的技术应对成为了黑产用户的首选。

以“快啊答题”为例，其基于主流AI深度学习的Caffe框架，并使用vgg16 卷积核神经网络模型，可以直接输入原始图像而无须预处理，并且还可通过深度学习提高识别率。相较于OCR简单识别图形文字，使用Caffe框架，可以对图形内的局部特征进行分类提取，更大的提高识别率。

那么如何应对各个网站迥然不同的验证码？其通过分布式AI验证码识别系统，能够实现对不同类型验证码的分类以及处理识别输出。而精确的验证码输出有赖于前期的训练，为此，该平台甚至收集超过10000个字体库，积累超过5000万的样本库进行训练。

这样就完了？不，用“精益求精”来形容这个团队都不为过。他们还会搜集反馈失败的样本，人工打码的标定数据，来实时训练和更新识别网络，进一步提高神经网络模型进行更新迭代提高识别率。“他们通过运用人工智能机器深度学习技术训练机器，可以让机器如AlphaGo一样自主操作识别，有效识别图片验证码，轻松绕过互联网公司设置的账户登录安全策略，给网络诈骗、黑客攻击等网络黑产提供犯罪工具。”

所以最后的结果是，侵犯公民个人信息和提供非法侵入计算机信息系统工具的他们被抓了。空有一副好头脑，用错地之后，再聪明又有什么用呢？

全国首例AI犯罪，为何会出现在信息倒卖的黑色产业链中？

大家都在看

难道只有我觉得1900X...

拆了惠普Zbook 17...

英特尔8代i7-8550...

这就是所谓的最佳VR视频...

为什么我会认为，走到第三...

独家 | 这家中国AR眼...

隔空评测三星Note8 ...

12核CPU选谁？据说壕...

【零镜评测室】暴风魔镜白...

绝地求生外挂太多，本以为...