注意,重点来了。和这座城有关的角色远不止于此。
混迹在人群之中,还有贼眉鼠眼的偷手,以次充好的奸商,深谙套路的骗子,投机倒把的黄牛党,还有像蚊子一样趁人不备就爬上去吸血的羊毛党。
(一)市集
2003年,淘宝网成立。
那是马老师的田园诗时代,如今阿里巴巴掌门人张勇当时还在普华永道任职,今天人们耳熟能详的支付宝、天猫和“双11”还都不存在。
那时的淘宝网也还是个宝宝,是个开放的“市集”。人们可以拿着自家的好东西来这摆摊,买主也可以来闲逛。可以说是想来就来想走就走,没那么多规矩,大家都很自觉地靠温良恭俭让维持着基本的买卖礼仪。
这里中哥得插入一下,和你讨论一个哲学命题:集市里的商家给自己找托儿刷单,又没有去砸邻家的场子,淘宝作为这个集市的管理者,应不应该管?
答案是:虽然刷单行为没有直接破坏别人的经营,但是它却破坏了公平竞争的环境,而没有人愿意在不公平的市场上做买卖。所以,这个问题的答案很肯定:淘宝不仅要管,还要非常严肃地管。
从此,一场旷日持久绵延至今的战争正式吹响冲锋号。
故事到底怎么发展呢?我们把镜头拉回淘宝这个“赛博市集”。
眼看大量的机器人从四面八方涌来,仿佛丧尸围城,淘宝网刻不容缓,需要马上构建起一道城墙,先把机器人挡在外面。
于是,从2006年开始,一道高墙在阿里巴巴周围筑起,只留下一扇城门,城门上有监控系统,专门判断来人是真正的人还是机器人。如果是人,请进;如果是机器人,对不起您也甭进来了。
瞬间,世界安静了。集市又恢复了如初的和谐,遵纪守法的人们继续嗨嗨皮皮地做生意。
而且,“面具”做得越来越逼真,越来越能蒙混过关。
假设一次秒杀活动放出10台 iPhone,有9台都被羊毛党用机器人抢到了,一旦发货,谁都追不回来。
阿里巴巴生死攸关。
旌旗猎猎,众将列立两旁,一场巨大的技术反击,掀开重幕。
(二)城墙
我们的第一位故事讲述者,铁花,就是彼时临危受命的战士之一。
铁花是2006年加入淘宝的老阿里人,他有个特异功能:能把代码编制得密不透风,最适合营建万人依靠的基础设施。(中哥曾经写过铁花的故事《我认识了一位阿里巴巴禁卫军》,感兴趣的浅友可以点进去复习。)
霸下:你瞅啥?
注意,说霸下是个城墙,它本质上却是一台超级计算机引擎,它的工作原理是:对每一个访问请求都进行“安检”,看看你身上有没有“违禁品”。
于是问题来了:安检得越细致,就越能分辨好人和坏人。但是,当动辄几亿请求涌过来时,如果对每个人安检时间过长,就会让用户排队比 ofo 退款的队伍还长。在现实中就表现为“界面一直转圈圈,迟迟无法下单单”,这肯定不能忍。
所以,霸下面临的最大技术难题是:又要马儿跑(高性能),又要马儿少吃草(少耗时)。按下葫芦浮起瓢,很愁人。
霸下一进入战场,大半儿的机器流量就像射在城墙上的剑,应声坠地。然而事情没那么容易,仍然有少量机器流量可以巧妙地骗过检验。阿里巴巴的童鞋们皱着眉头分析,发现这类机器流量大部分都来自于手机。
这里不妨多科普两句。
机器人分两种:手机版和电脑版。
用手机做“机器人”,比用电脑做“机器人”的隐蔽性更高。因为电脑的参数相对固定,如果做了坏事就被霸下用小本本记下,下次很容易就被识别。但手机是会移动的,参数经常变化,霸下就可能看不出来。
硝烟里,霸下举着发报机:“呼叫总部,请求增援!”于是,“轻骑兵”阿里巴巴移动安全团队挺身而出。
典扬就是当年移动安全团队的一员。回忆那时,他吐槽:“动不动黑产就模拟出几百万台手机冲进来秒杀,连卫生纸都抢,太丧心病狂了。”
随着时间推移,为霸下提供数据补充的团队越来越多,霸下也越来越聪明。至此,霸下如史诗一般直耸云端,在黑暗森林的包围中,保卫着淘宝这个世外桃源。
这里,中哥又要问你一个有趣的哲学问题:
一旦霸下识别出了这个流量是黄牛党,就一定要拦截它吗?
别着急回答,仔细思考一下。答案并不简单。
实际上,阿里巴巴的童鞋们并不是那样做的。在2016年 iPhone7 上市时,无数黄牛党指挥机器人冲向天猫准备抢购,结果铁花团队通对羊毛党人数掐指一算,指挥霸下专门为黄牛党开了一个小场地,他们可以进来抢,但是抢到的概率极低,最后核算下来,一个黄牛党无论指挥多少台机器人一起抢 iPhone,他抢到的概率和一个正常人是一样的。
铁花说,今天超过99.8%的机器流量都在霸下的掌握中。你可能会替阿里巴巴松口气:“这下万事大吉了!”
如果这么说,多半是因为你没当过市长。阿里巴巴是座城,机器人搞定了,还有好几亿真人等待着这帮技术宅搞定呢。。。
(三)捕快
有道是:“见的机器越多,就越喜欢人;见的人越多,就越喜欢狗。”
阿里巴巴这座城里有形形色色的人,很多绝非善类。给你举三个例子:
机器刷单被霸下拦住后,很多店铺又开始了真人刷单。在论坛或者社交群里找来想做兼职的人,组织他们去给某店铺刷单,刷一单返几块钱。
真人刷单的组织者渐渐多起来,其中少部分头头发现,这些找兼职的人很傻很天真,干脆我许诺他们刷单返现,然后卷钱跑路,岂不来钱更快?于是就有了刷单诈骗。
恶意会传染。看到利益,很多买家也动起了歪心思,把某个商家的东西全拍下来,就是不付款,这时商品就被锁定,无法卖给其他顾客,以此要挟商家给“保护费”,这就是“恶拍”;还有人买下东西,给差评,敲诈商家花钱平事儿,这就是职业差评师和“恶评”;还有人让包邮商家把超大杠铃寄到新疆,然后不收货,来回两次运费都要商家出,以此要挟,这叫“恶退”。
凡此种种,为了赚钱,各种人脑洞简直开绝了。
对于这些真人干的事情,识别机器流量的“城墙”霸下就爱莫能助了。于是,阿里安全的第二个神器就这样登场了。那就是——MTEE。
MTEE 也是一台超级计算引擎,说具体点是“执法引擎”,它有点像城里的捕快。
例如,大清律法写着“当街行骗,杖责四十。”那么很简单,捕快一旦发现有人行骗,就拉过去打四十下,以儆效尤。
虽说 MTEE 是官兵,但是官兵也不能随便抓好人啊。。。所以阿里规定,依靠自动规则拿不准的案例,最终都会交给人类审核员来处理,这就让审核员们压力山大,每天跟柯南一样推理断案,烦的一比。。。
到后来,MTEE 上的“人类配置的规则”已经有一万条了,但是准确率距离大家心中的要求还有差距。这种情况,必须靠新技术了。
MTEE 的技术负责人知命回忆。
知命所说的新技术,就是大名鼎鼎的人工智能。
神盾
有机会为中国企业用代码构建万世基石,神盾热血奔流。
他撸起袖子,马上联合算法团队,用人工智能跑出了一些用于替代“人类规则”的“AI 策略”。
也正是从那时开始,人工智能缓慢而坚定地接过人类的工作,到了2017年底,MTEE 上已经跑了120多个人工智能模型。
人工智能一旦拥有火眼金睛,白骨精换什么 CosPlay 都白搭:
一开始店铺刷单依靠机器;后来机器被拦截,他们就找真人下单,但为了节省成本,不发货;后来这种刷单被识破,他们就不仅让人拍下,还象征性地发个“空包”(快递包里没有物品);后来物流数据接入 MTEE,快递的重量被记录,发空包也不行了,他们就在箱子里放一瓶水或者一块砖;当然,现在你就算发砖都不行了,因为 MTEE 又有了新的数据。。。
你想想看,如果刷一单的成本已经无限趋近于真实购买一单,那么“刷单”这个行为就被等价还原成了“让利促销”。用温和的手法,把人搀扶到正确的道路,这就是技术的济世情怀。
每年双11,都是 MTEE 最为闪耀的时刻之一。
阿里巴巴平台上的商户们为这场狂欢投入的营销费用总计几十亿甚至上百亿。这么多资金,在上千万黑灰产从业人员的眼里,就是肥美的羔羊。然而,如今 MTEE 仅仅依靠100人,撒豆成兵复刻了无数火眼金睛的“数字捕快”,在坏人摸向羊毛之前,就捏住他们的手,然后亮出证件:“你可以保持沉默,但你所说的一切都是呈堂证供。”
灭绝师太郑俊芳
钱磊就是在这个时候被师太拽来的。他加入的部门是“平台治理部”,我把它称为“衙门”,这个部门的重要职责就是制定一套识别假货的技术,然后交给“捕快” MTEE 去执法。
例如,奥利奥在淘宝上发现有人卖“奥力给”,就得找到淘宝吐槽,淘宝再处罚商家。这种操作对电商平台来说不难,也是包括亚马逊在内的全球电商的通用规则。
但师太拉钱磊这个技术大牛过来,不是干这种简单的事儿的。
你可能看出来了,这里还是有误伤可能。我的 LV 二手小钱包比较旧了,就愿意卖100块!凭什么我卖的便宜就是假货呢?
钱磊挠头,只靠规则一刀切不是个长久之计。他决定去找包括 LV 在内的大牌公司聊天。拉着对方的人死乞白赖地问:“你倒是给我说说,你们是怎么分辨假货的?”
LV 告诉我,识别假货不只看价格,名牌产品是有“关键设计”的,可能直男看起来一个野生包包和LV并不相似,比如 LV 的图案是四个花瓣,有个包上印了五个花瓣。
虽说花瓣数量都不一样,但它其实是抄袭了关键设计,要认定为假货。
钱磊给我科普。
遮挡的图片大概就是这样
这是赤裸裸的挑衅呀!钱磊憋着一口气,带队继续升级人工智能算法,专门识别“手指遮挡”和“打半码”。售假商家想出新的对抗策略,人工智能就继续压制。双方你来我往地拉锯,这场战争旷日持久。到了2018年初,阿里巴巴终于夺下了绝对优势,售假商家的活跃数据断崖式下降。
我搜了一下,给你看看
除此之外,还有更棘手的问题。
例如,有人在淘宝上售卖爱奇艺的会员月卡。但是他们的操作是,15块买一张月卡,然后分别以两块钱的价格批发给很多人共用。爱奇艺也不是吃素的,查到多人共用月卡,一般都会做封禁处理。这时购买了会员的用户就会到淘宝来投诉,说这个商家卖假货。
那这个商家到底算是卖了假货还是没卖假货呢?要说卖了假货,似乎有点言重,要说没卖假货,确实和用户预期不一致,淘宝也很为难。
平台治理部的同事们商量了好久,觉得处罚不是目的,满足用户才是目的。他们最终拿出的方案是:用户搜索“爱奇艺会员”,就把爱奇艺官方的充值渠道优先展示给用户,引导用户“走正道”,如果你实在想买便宜但有风险的会员,花点时间也不是找不到。
故事讲到这,你也许能慢慢体会,为什么我会说“阿里是座城”。
城市里有黑有白,有对有错,但城市里有更多介于黑白之间,清官也断不清的家务事,治理一座城,仅靠严刑峻法是无法长久的,它考验的是治理者的洞见、胸怀、技术能力、思考格局和大智慧。
算法团队的生活绝对是“把脑袋别再裤腰带上”——可以说淘系平台上所有店铺的生死大权都握在这些大牛手上,一旦某个智能模型出现错误判断,就会错杀一大批店铺。责任这么重,睡觉都不踏实。。。
算法团队最早期的负责人是江洋,他给我回忆了一次惊险事件:
有一天凌晨三点,MTEE 根据一条算法,突然向部分商家发出严厉警告:你们存在严重的刷单行为,第二天要进行关店处罚!
陆全
在陆全看来,算法所面临的敌人变化之快,简直到了变态的地步。对方使用一个招数,你要在最短的时间内拆招,然后使出能够力克他的新招数。你来我往,攻守易势之快,不亚于霍元甲在拳台上和对手比武的节奏。
对手到底有多狡猾呢?陆全回忆了一个故事:
就在2017年双11之前两周,算法同学发现了一个异常的情况:一些本来活跃的羊毛党突然停止了进攻,安静得有点瘆人。是黑产改邪归正解甲归田了?那不可能。唯一的解释就是,黑产在为“双11”做准备。但是他们在准备什么呢?
想了两天,陆全恍然大悟。
算法的操作原理是:根据对手在最近一段时间的行为数据,来推测他未来可能采取的行动。如果黑产在双11之前两周没有动作,那么算法就没有他们最近的行为数据,对于他们的判断力就会减弱!双11那天他们就可能逃过检测。
意识到这一点之后,陆全马上组织童鞋们把算法做调整。针对这类黑产采用两周之前的数据进行训练。在双11那天,果然对手突然跳出来,大吼一声:“我想薅羊毛!”没想到 MTEE 也跳出来大手一挥:“不,你不想。”
岁月静好。岁月背后,是那些细密的故事。
阿里巴巴有如同石油一般的大数据,有如同武林高手一般变幻无穷的算法,有坚如磐石的“城墙”,有火眼金睛的“捕快”。各个安全团队编制成了一套极其精密的系统,维护着阿里巴巴这座城池的秩序和安宁。
在内部的一本“秘密档案”里,记录着黑暗森林里各个团伙的特征、技术特点、组织关系,并且实时更新。你可能会问,这么详细的敌方记录是怎么搞到的?对不起,中哥也没打听出来,对于情报部门来说,信息的来源是最密不外传的精髓。
入侵就是“大内密探”的一员。(因为工作性质特殊,这里就不放他的照片了)
他曾在论坛里监控诈骗团伙传授仿冒淘宝客服诈骗的经验,他也曾目睹警察叔叔端掉整个团伙的窝点,枪栓铿然。然而最让入侵觉得刺激的,是他发现新型攻击的那一刻。
2017年双11前夕,入侵和同事们突然监控到某个老湿傅在群里吆喝兜售一个薅羊毛工具。卖工具的天天有,大部分在霸下面前都是渣渣。但这个老师傅成功地引起了入侵的注意,因为他的广告语是:“百分百绕过霸下”。。。
搞来一试,冷汗顺着入侵的额头冒出来。
这个工具使用了一个极骚的操作,还真能骗过霸下。这种情况太罕见了,要是我们没发现它,被人用来冲击双11,连淘宝天猫的稳定性都有可能出问题。
他回忆。
当时入侵紧急联系铁花的霸下团队,第一时间把这个口子封堵。
那一年双11总成交额达到了1682亿元,吃瓜群众看到的是天猫淘宝丝般顺滑,没人知道曾经发生过这么惊险的一幕。
没想到,黑产团伙却从中开发出了盈利模式。。。
他们利用黑客手段,在很多人手机里种下了木马,强行“帮”他们把淘口令放进手机剪贴板里。这样,不明真相的群众打开淘宝,就会被强制引流到这家店铺,黑产团伙就拿着这些数据去结算广告费。
入侵把这个情况汇报给广告团队,广告团队马上推出对策:凡是用强制方法弹出的广告,这些广告费一分都不予结算。黑产费了九牛二虎之力,竹篮打水一场空,自然就没人再做了。。。
说到这,你可能都快吐槽无力了,这群坏人的脑洞也太清奇了,要是把这些智商用在社会主义建设上,中华民族伟大复兴至少提前50年实现。。。
实际上,凡是能让坏人从中渔利的点,都被阿里安全的同学们称为“利益点”。在阿里巴巴总共有上千个利益点。随着业务变化,每天都有一些旧的利益点消失,也会有更多新的利益点产生。
安全团队们通力协作,守卫着这些利益点,日也不敢放松。这场对与错,黑与白,正义与邪恶,金钱与荣誉的战争,就这样无休止地进行下去。
2018年,淘宝掀起了一场规模巨大的拉新活动。凡是新注册用户,都可以拿到几十块钱的红包。
本来这是一场兴高采烈的活动,却又被黑暗森林里的黑产盯上了。他们利用各种地下渠道买来的身份信息,注册淘宝账户,把红包拿走以后就再也不来了。
“神机军师”陆全通过对前两天后台数据分析,发现最高峰时刻有不少红包都白白损失了。
然而,对于这种拉新场景,算法团队+MTEE 却不能像其他场景一样防控得那么好。因为新注册账户可供判断的数据量非常少,相当于只让你看一眼面相就判断对面这个人是好人还是坏人,难度非常大。
一场淘宝团队和安全部门的紧急会议召开。
陆全很着急,跟淘宝同事们说:“我们的算法升级需要两周,你们的活动能不能暂停,等风控完善了再上也不迟啊!”
然而淘宝的同事摇了摇头,说:“陆老师,你说的我都懂。但商场如战场,别说两周,一秒都等不了。冲锋号已经吹响,别说资损,就是死人,我们也得上!”
陆全没有再多说,冲回工位,把团队骨干都叫过来:“大伙查查看我们还有什么武器,最新的技术全拿来,研发中的新武器“图计算技术”也可以上。淘宝的兄弟们要冲锋,眼看就会有伤亡,现在能炸碉堡的人,只有我们。”
就这样,赛博空间的战场上,斜刺插入一直凶猛的特种兵。算法团队几天几夜没睡觉,人工智能有弱点的场景,就用真人来顶上。同学们轮换着更新算法,谁都不愿意离开,生怕因为自己去睡觉,而造成了淘宝的资金损失。就这样兵来将挡水来土掩,生生把淘宝拉新的资损率给压了下去。
回忆这些年的故事,神盾也感慨良多。
在美国,我见过很多华人技术人,他们都很优秀,大多却只是“干活的”,不会被当做公司的主人。但在阿里巴巴, 我,和我的同事们,无论职位高低,能力大小,每个人都是主人,我们在用自己的热血创造历史,一点点把这片土地变得更好。这种感觉无论多少钱都无法买来,而我的祖国能给我。
2017年底,灭绝师太郑俊芳开始同时负责安全部和平台治理部,成为新一任的首席风险官(CRO)。钱磊此时也开始负责带领 MTEE 所在的风控技术团队,2019年初,包括霸下在内的基础安全团队也纳入他的管理之下。
有了统一调配,风控链路上各个“兵种”的协作就变得更为方便。于是,钱磊把阿里巴巴这些年和敌人作战的经验总结成了“新一代安全架构”。
这个架构就像一个三层大楼:
最下层是安全技术层,包括数据安全、密码学、攻防、算法等等。(这就像水泵、发电机一样是大楼的底座)
中间层是安全基建层,包括软件供应链、研发生命周期、发布卡口、应用可信等。(这就像大楼的建设标准)
最上层是安全运营层,包括网络安全、合规、风控等。(这就像让大楼有序运营的物业)
以上我使用的都是专业名词,但其实我们今天所讲的所有兵种,都可以归入这三层。
在今天的故事里,这三层架构中还有很多安全队伍没有被提到。例如:软件安全开发团队在日复一日地用制度保障每一行代码从出生就是安全的;数据安全团队在奋力保障用户的数据在流通环节里不会泄露;安全测试团队每天为阿里的安全系统做巡检;安全实验室在时刻寻找着新的攻击技术,不断拉大和黑产的技术代差。
在钱磊看来,单一的兵种再厉害,也没办法独自阻止敌人的进攻,正如坚固的马奇诺防线可以被巧妙地绕过。而只有依靠一套强大的安全架构,各个兵种深度配合,才能力保城门不失。
这种安全架构,将成为“数字基建”的一部分,不仅保护阿里巴巴这座城,也能成为数字世界中的无数城池的榜样。
黑产丧心病狂,但我们有广大的战略纵深和坚固的数字基建。我不知道这场战役要打多久,我只知道,我们赢定了。
钱磊说。
故事讲到这里,也该告一段落了。
阿里巴巴是座城,这座城还在迅速地扩大。