概率统计魅力无限:从Alphago,DNA分析到搜索引擎

概率统计魅力无限:从Alphago,DNA分析到搜索引擎

点击上方“数学英才”可以订阅哦!

下面转载马志明院士的一篇演讲。

演讲题目: 概率统计,魅力无限

演讲人: 马志明院士, 中国科学院数学与系统科学研究院

主讲人简介: 马志明,中国科学院院士,中国科学院数学与系统科学研究院研究员。1984年在中国科学院获博士学位。在概率论与随机分析领域有重要贡献。研究狄氏型与马氏过程的对应关系取得了突破性进展,与人合作建立了拟正则狄氏型与右连续马氏过程一一对应的新框架。他与M. Rockner合写的英文专著已成为该领域基本文献。在Malliavin算法方面,他与合作者证明了Wiener空间的容度与所选取的可测范数无关。他还在奇异位势理论、费曼积分、薛定锷方程的概率解、随机线性泛函的积分表现、无处Radon光滑测度等方面获得多项研究成果。近年来关注概率论与生命、信息等其它领域的交叉。曾在1994年国际数学家大会上作邀请报告。曾获包括Max-Planck研究奖、中国科学院自然科学一等奖、国家自然科学二等奖、陈省身数学奖、华罗庚数学奖等在内的若干奖项。1995年当选为中国科学院院士,1998年当选为第三世界科学院院士,2007年当选为数理统计学会(IMS)Fellow。曾担任2002年北京国际数学家大会组委会主席。曾任国际数学联盟执委会委员(2003-2006)、副主席(2007-2010)。曾任中国数学会第八届理事长(2000-2003),第十届理事长(2008-2011),中国概率统计学会理事长(2011-2014),现任中国科技大学数学科学院院长。

概率统计的思想和方法正渗透到当代人类社会的众多科技领域和社会领域。概率统计在现代科学技术和社会经济领域的应用日益广泛深入,它与其它学科,以及与数学的其它分支相互交叉、渗透,取得了极其丰富的成果, 展现了概率统计学科的无限魅力。当然,虽然概率统计的魅力无限,但我自己的学识却是有限。在今天的报告中,我将与各位分享我的一些点滴体会。我先说一说统计学科已发展成为在当今科学与社会应用非常广泛的重要学科。在我国更是有特点,成立了统计一级学科。统计与其它领域交叉产生许多重要分支,如金融统计、保险精算、商务统计、计量统计、生物统计、保险统计和应用统计等。由于我的研究方向是概率与随机分析领域,因此在下面的报告中对概率与随机分析讲的多一些。

概率统计方法近年在数学学科取得的标志性成果

近年来概率统计日益渗透到数学的其它分支,取得了极其丰硕的成果,并且不断地产生新的学科分支。比如:随机偏微分方程、随机动力系统(这两个正是楼上本次学术会议的内容)、随机微分几何、随机共形理论、随机图与随机复杂网络、随机算法、倒向随机微分方程、非线性数学期望,等等。概率统计与数学其它分支相融合,促进了数学学科的发展,最有代表性的事实就是近年来多项国际数学大奖都与概率统计有关:从2006年至2016年这十年中的菲尔茨奖(曾被誉为数学中的诺贝尔奖),每届都有概率,而且非常多: 2006年四位菲尔茨奖得主中,有三个半与概率有关,其中Werner与Okounkov可算是概率科班出身,Terance Tao 的许多研究涉及概率与随机矩阵,Perelman的研究工作用到对数Sobolev不等式,也与概率有关; 2006年的Nevanlinna奖颁发给了Kleinberg, 他的研究工作是关于随机图和随机复杂网络及其算法;Gauss奖设立于2006年,以奖励对人类其他领域做出突出贡献的数学家,首届Gauss奖颁发给了Ito, 奖励他发明的随机积分对人类的贡献; 2007年Abel奖(与诺贝尔奖奖金相同)奖给了国际著名概率学家Varadhan; 2010年菲尔茨奖四位得主中,Villani, Smirnor, 和Lindenstruss 三位的工作都与概率有关; 2014年Martin Hairer由于在随机偏微分方程的杰出贡献获得了菲尔茨奖, 他创造的正则性结构,建立了新的框架,统一了Rough Path理论和经典的Taylor展开理论。这一理论可以用来研究随机偏微分方程和数学物理方程,预期在数学和物理的许多领域都有应用。用这个新的数学框架可以对原来不适定的一些随机偏微分方程给出了严格的数学意义,比如界面运动产生的KPZ方程,统计力学中临界状态的宏观行为等。

深度学习和强化学习中的概率统计

给大家讲讲比较有趣的深度学习和强化学习中的概率统计。之所以选取这个题材,是因为四个月前, AlphaGo战胜世界围棋冠军、韩国九段围棋手李世石,在人类社会掀起了不小的波澜。AlphaGo算法设计的主要工具就是深度强化学习和蒙特卡罗树搜索,这里面用到大量的概率统计。 下面我主要讲讲AlphaGo用到的概率统计。在讲述之前,我公开申明:我要感谢微软亚洲研究院的贺迪。起因是中国科学院大学的一二年级大学生做科创计划,他们选择了学习AlphaGo的科创计划,研究AlphaGo的概率统计原理,希望我做他们的导师。我就通过我在微软工作的过去的学生邀请到贺迪,请他给我们作报告介绍AlphaGo的原理。下面介绍的内容部分取自贺迪的报告,部分取自查阅互联网获得的资料,不一一注明知识产权的出处。

人工智能下棋已经有很长历史,过去IBM有一个深蓝团队,用“深蓝”计算机“下国际象棋。国际象棋所有棋局可能性约,围棋的所有棋局的可能性大约是,而全地球的原子总数也只有。围棋所有棋局远比地球所有原子数目多,这真是一个大数据。过去IBM团队用“深蓝”同人类下国际象棋时,可以把人所有下国际象棋的步骤穷举。但是,围棋做不到,围棋不能穷举!你想,这么大的天文数字怎么能穷举?!围棋只能用随机方法、只能用概率方法,这正是体现了概率统计的重要性。

谷歌的研发团队用深度学习和强化深度学习为 AlphaGo训练了四个神经网络,用通俗的语言,这四个网络分别是:快速走子网络、走棋网络、强化学习网络和估值网络。他们先用3千万局人类下棋的棋谱来有监督地学习出两个模型:其一是用13层的卷积神经网络学出来的走棋网络,另一个是用逻辑回归学出来的快速走子网络。这两个网络都可以近似理解为基于3000万个有标注的数据< s , a >,评价在当前局面s下,棋子落在某一位置a的概率,也就是p(a|s)。其中“快速走子网络”可以被看作是“走子网络”的轻量级版本,它能够比“走子网络”快1000倍,但是精确性较差。在走子网络的基础上,通过机器和机器自已对弈,由产生多达3000万个标注样本,每个样本的局面s都来自不同的一局棋,用大量增加的样本训练出强化学习网络。而第四个网络,是在走子网络和强化学习网络的基础上训练出来的估值网络,它可以估出在当前棋局下胜算的概率值。总体来说,前三个神经网络都以当前围棋的对弈局面为输入,经过计算后,输出可能的走子选择和对应的概率。概率越大的点意味着神经网络更倾向于在那一点走子,这个概率是针对输入局面下所有可能的落子点都有一个概率。第四个神经网络是用来进行价值判断的, 输入一个对弈局面,它会计算出这个局面下黑棋和白棋的胜率。我的理解,四个网络都是概率,前三个都是概率矩阵,第四个是一个概率值。

真正对弈的时候,用的是蒙特卡罗树搜索(MCTS)算法, 它也是吸收了概率的思想。 现在很多的计算都是用蒙特卡罗方法, 它的中心思想是按照一定的分布去落点, 因为分布是给定的,落点落多的时候, 自然地,原来分布所要求的函数就能够得到, 计算机也就会把它绘出来。AlphaGo怎么下围棋?刚才四个网络做好了,相当于四个大脑。现在从当前位置的棋子出发,它要计算不知多少遍,才走出一个棋子。它怎么走?直观地解释,它根据神经网络选出一个路径走,走到一定程度让它扰动一下,再继续走下去,看它是输还是赢,最终给出一个判断这一步走子输赢的值,这个值用快速走子网络(它能很快把棋走到底决出胜负)和估值网络估出来的输赢概率按一定公式计算出来。然后返回到原来准备要走的地方。这就是蒙特卡罗树搜索的一个基本过程。这样的过程可以不断重复,一直算到电脑认为最佳为止,或者算到规定下一步必须走子的时间为止。电脑根据在这之前的所有计算信息综合出一个值来,然后决定下一步在哪落子。

我们现在看来,人工智能下围棋把世界冠军下赢,除了电脑计算速度非常快之外,它的算法中概率统计是离不开的,功不可没!这是概率统计魅力无穷的一个实例。

  • 概率统计在DNA序列分析中的应用.

下面讲讲概率统计在DNA序列分析中的应用。这部分内容与我们目前的研究方向有关。今年7月3号我在上海财大举行的国际生物统计中国分会做了大会报告,下面我将取自那里的一些材料,来说明概率统计的作用。这几年我们做应用,一方面与微软合作,另一方面与生物学家合作。我们一直在念Rick Durrett 的《Probability Model and DNA Sequence Evolution》和杨子恒最近的一本书《Molecular Evolution: A Statistical Approach》(2014年出版)。这一学期,我们学生都在念他这本书。去年,北京召开了国际工业与应用数学大会,我是大会程序委员会主席,挑选了27个大会报告。同时,我和杨子恒共同组织了一个小的Symposium《Mathematics in Population Genetics and Evolution》, 其主题有下面的一段话:“This symposium will focus on probabilistic modelingand statistical analysis of modern genetic and genomic data, and thestatistical and computational challenges that we face。”随着当代基因和基因组数据的迅速增加, DNA序列分析越来越需要生物学、数学、统计学和计算机科学的共同参与和交叉合作。这方面研究成果也很多,也很活跃。近年来我们研究组与中科院基因组所、上海马普生物研究所等单位的生物学家合作,也做了一些研究工作。我们的研究成果包括:基于同源一致片段推断人口迁移历史 , 基于祖先片段推断人口混合历史,带有重组的溯祖新模型,等等。另外,我的学生朱天琪与杨子恒等人用真实的DNA数据,结合化石提供的校准区间信息,估计生物进化的时间。他们最主要方法是概率统计的贝叶斯分析,由于改进了贝叶斯分析的初始分布,他们得到相对准确的哺乳类动物的分化年代。这些结果都充分展示了概率统计的魅力。

  • 搜素引擎中的概率统计.

概率统计与信息领域的交叉也是一个非常有说服力展示概率统计魅力的例子。我前些年在各地作公众报告时经常讲这个例子。

这是我在 Google 中搜寻中国科学院出现的页面。页面上标记有 874万条结果,用时0.15 秒。计算机很聪明, 并没有把 874万条结果不排序地全部列出, 而是把最重要、最相关的结果排在前面。计算机怎么会识别哪些结果比较重要, 哪些结果比较不重要呢? 它能读懂这些页面的内容, 然后根据内容来确定页面的重要性吗? 显然不可能, 现在的计算机还没有发展到那么先进。实际上很多搜索引擎公司做的一件主要的事, 就是网页的排序。网页排序包括重要性排序和相关性排序,都要用到概率统计。相关性排序我今天可能没时间讲, 我就讲讲网页的重要性排序, 下面我用概率论和马氏过程理论来说明网页重要性排序的原理。

这里右边是我们的互联网, 当然里面有上万上亿个网页, 为了能够说明清楚, 这里就假定我们有 6 个网页。假如你现在浏览页面 1, 页面 1 有两个超链接, 一个指向 2,一个指向 3, 下一步你很可能点一个超链接就到页面 2, 或另一个超链接到页面 3, 也就是说从页面 1 出发, 可能有 1/2 的概率到页面 2, 1/2 的概率到页面 3。同样的道理假如从页面 3 出发, 页面 3 有三个超链接, 所以在浏览页面 3 的时候,可能有 1/3 的概率到页面 1, 1/3 的概率到页面2, 1/3的机率到页面 5, 以此类推。如果你现在浏览的页面没有向外的超链接, 比如页面 2, 那么在浏览页面 2 时, 下一步也许有相同的概率到任何一个其它页面。当然我这样描述的上网动作并不全面, 因为你也可能不顺着超链接到下一个页面, 而是通过输入一个关键词或者是一个网址进入下一个页面。假定有概率 α 顺着超链接到另外一个页面, 同时有 1−α的概率通过输入一个网址或是关键词去到另外一个页面, 这两个动作综合起来就是我们上网冲浪的动作。这是两种随机游动组合成的一个随机游动, 连续上网冲浪的动作构成一个马氏链, 它的转移概率由我们刚才描述的两个上网动作来确定。这是一个不可约马氏链, 它有唯一平稳分布。 Google把马氏链的平稳分布称作 PageRank, 并以此来为页面重要性排序。一个页面的 PageRank 值越高, 即平稳分布在一个页面的值越大, 就认为这个页面越重要。用概率的理论上可以严格证明, 平稳分布在一个页面的值正好等于点击这个页面的平均访问率, 所以用这个值来为页面的重要性排序很合理。不可约马氏链的平稳分布在计算机上运用迭代法容易实现。但由于互联网的规模很大, 实际计算时也需要很长时间。这种计算页面重要性的算法出自 1998 年就读斯坦福大学 (Stanford University) 的博士研究生 Sergey Brin 与 Larry Page, 他们把这个算法称作 PageRank 算法, 并且编写了一个 PageRank 搜寻工具。他们发现, 网络越大, 链接越多, 这个引擎提供的结果就越准确。于是, 他们将新引擎命名为 Google, 这是 Googol 的变体, Googol 是一个数字名词, 表示 10的 100 次方。 Brin 与 Page 于 1998 年在第七次国际 World Wide Web 会议 (WWW98) 上公布他们的论文“The Page Rank citation ranking:Bringing order to the Web”时, 正在用自己的宿舍作为办公室初创产业, 这一产业后来发展为庞大的 Google 公司, Brin 和Page 现在已跻身世界上最有钱的人之列。 PageRank 算法是信息检索领域里一个革命性的发现, 这个在信息检索领域看似很困难的问题, 用一个马氏链就能就解决了, 概率统计的用处有时真是不可估量。我还要补充强调一下, 现在各搜索引擎公司对页面的排序, 除了用到PageRank 算法, 或类似于 PageRank 算法提供的重要性排序外, 还要考虑相关性排序和诸多其它因素。

从 1998 年到现在, Google 的 PageRank 算法作为网页排序的优点已经充分显示, 而缺点也逐渐地暴露出来, 最大的缺点是它只利用了页面结构, 没有考虑网络用户的感情。其实现在有很多的垃圾页面, 它的 PageRank 可以排得很高。甚至有些 SPAM 公司, 自已搞个服务器, 让许多页面互相连结, 如果对方给钱, 公司就将你的页面连结上去, 从而恶意提高页面排序。这个问题, 特别是在前几年, 成为搜索引擎公司非常关注的问题, 怎么样能够克服这个缺点, 当时很多搜索引擎公司都在做。我们跟微软亚洲研究院在这个问题上也有些合作的关系。当时是这样开始的, 记得大概是 2005 年吧, 我那时候对随机复杂网络感兴趣, 办了一个随机复杂网路的讨论班。微软亚洲研究院的一位年轻工作人员来找我, 想请教我一些问题。我借此请他在我们讨论班作报告, 他向我们介绍了 Google 的故事。以后我们跟微软亚洲研究院开始合作, 我的学生也到微软作实习生, 共同培养人才。有一次, 一位年轻的研究员和我的学生一起来找我, 把用户上网纪录数据拿给我看,问我由这些数据, 能不能够判断出页面的重要性, 或着说能不能挖掘出什么样的讯息来。我们坐下来开始想这个能做什么用。当然我们是学概率的, 所以我们就想到这是个随机过程, 它不是确定性的, 当然它也是跳过程, 一跳一跳的。我们猜想其中比较关键的是, 在这个页面上你下一步到哪个页面去, 或者你在这个页面上停留多少时间, 这些在很大程度上, 只跟页面的内容有关, 而跟你以前访问过哪些页面无关。因此作为一阶近似, 这个过程很可能是一个马氏过程, 它将来的发展只与现在有关, 跟过去无关。另一个想法, 你上午看这个页面或下午看这个页面, 你的动作可能差不多, 所以还应该是时间齐次的。所以当时我们就分析, 也许可以把所有人群上网的动作, 近似的看作是一个时间齐次的马氏跳过程。当然,要判断它是不是时间齐次马氏跳过程, 要用到概率知识, 假如真的是时间齐次马氏过程, 那么用户在一个页面停留的时间, 应该是负指数分布, 这是马氏过程理论的一个基本结果。我们建议微软把他们的数据拿来检验一下, 于是微软亚洲研究院的相关研究组用真实资料作了大量实验模拟, 由我当时在微软实习的学生刘玉婷设计算法,发现用户在网页的停留时间基本服从负指数分布。这个分析出来之后, 我们相信可以用马氏过程来研究上网动作, 微软亚洲研究院成立了一个小组主攻这个项目,刘玉婷当时作为微软的实习生也在这个研究小组。这个研究小组做得非常好, 在微软相关研究员的带领下, 他们克服了种种难关, 每一步都在课题组内反复论证,深入探讨, 反复模拟实验。这里面含有许多奇思构想和巧妙的数学。微软亚洲研究院从产品部门调来大量数据, 做了大规模模拟实验。2008 年 7 月, 在新加坡召开的的第 31 届国际信息检索大会上, 刘玉婷报告了他们的论文:《浏览排序: 让因特网使用者为页面重要性投票》, 论文获得了会议设立的唯一最佳学生论文奖。这篇文章, 据说他们修改了八十一次, 在新加坡得奖之后, “Browse Rank”成了业内的热

门话题。最热的时候, 输入关键词 Browse Rank 有 157,000,000 个结果。当时网页的文章, 有的题目是“Browse Rank vs Page Rank”, 有的说“Microsoft Lauches Browse Rank To CompeteWith Page Rank”, 还有“Live Search is researching a rankingfeature similar to Google’s Page Rank called Browse Rank”, 等等。网上还有一个以“BrowseRank the next PageRank”为题目的视频介绍微软亚洲的研究人员开发的 Browse Rank。这是前几年的事, 当然了, 一个新产品的开发还与许多其它因素有关, 现在也没有 Browse Rank 出现, 但是说明当时这个工作在讯息检索领域引起了一些关注。我们与微软现在还有合作, 现在我还有学生在微软, 已经是正式的员工。从做科学研究的角度来说, 我们感到高兴的是我们第一个用 Browsing Process 刻画了真实的用户上网行为。我相信今后人们在研究用户上网行为时, 一定会想到Browsing Process, 应用并发展 Browsing Process 的理论和实践。上面说到我们发现用户上网的一阶近似可以用马氏过程来刻画, 后来我们又有进一步发挥, 在这个基础上提出了 web 马氏骨架过程,之所以提出 web 马氏骨架过程, 是因为后来研究手机网的搜索引擎时, 发现它不完全是马氏过程, 最多可以算是 web 马氏骨架过程, 也就是说它有一个骨架是马氏的, 而它的等待时间不仅依赖当前页面, 还依赖以前的页面。由于手机上面网页的超链接, 跟一般普通网页超级连接的设计不一样。

转载自微信公众平台“和乐数学”

数学英才

中学生英才计划

数学学科官方公众号

推送数学微慕课和学习资料

微信号:shuxueyingcai

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注