北京中科高效抗白个性施术 https://www.cqcb.com/dyh/live/dyh2671/2018-11-22/1253103.html随着科技的快速发展,人工智能的热度越来越高。而数学知识蕴含着处理智能问题的基本思想与方法,是理解复杂算法的必备要素。在机器学习工作流程中,数学与代码高度交织在一起,代码通常可以根据数学直观地构建,甚至会共享数学符号与句法。对于大多数新手来说,弄清楚入门人工智能需要哪些数学基础、需要熟悉什么框架等,都至关重要。机器学习是一个异常丰富的研究领域,有大量未解决的问题:公正、可解释性、易用性。如同所有的学科一样,它的基本思想不是请求式的过程,而是需要耐心地用高级数学框架思考重大难题找到解决方案。在机器学习中,不论是在算法上理解模型代码,还是在工程上构建系统,数学都有着其重要意义。因此,要了解人工智能,首先要掌握必备的数学基础知识。学校一般都会分为文科和理科,有没有莫名地产生一些理科生似乎更聪明的感觉呢?我认为,给人们造成这种感觉的很大原因在于数学。有的孩子很喜欢算术,但升入初中、开始从算术转向数学时就跟不上了。一旦一步跟不上,就很难重新进入数学的世界,而课程不等人,不断地继续往前进行。在三角函数上摔一个跟头,还摸着伤口没回过神来呢,微积分又呼啸而至。数学最恐怖的地方在于它是一门不断累积的学问,一旦在某个地方遭遇挫折,中途出现一点点空白,就算是想要努力越过空白、学习前面的课程,也是万万不可能的。不认真学习、补上空白的部分,根本无法前行,成绩自然也不会提高。所以,一旦数学考不及格、开始对学习数学产生厌恶心理的话,就万事皆休。在此,不必特意举出谷歌、苹果,世界顶级企业基本上都是技术公司。网络界幕后支配者Akamai也是如此。它们全是由美国的理工科高材生所创立,而这些公司使用的技术都需要大量的数学支撑。在谷歌主导互联网搜索之前,多数搜索引擎采用的排序方法,是以被搜索词语在网页中的出现次数来决定排序——出现次数越多的网页排在越前面。这个判据不能说毫无道理,因为用户搜索一个词语,通常表明对该词语感兴趣。既然如此,那该词语在网页中的出现次数越多,就越有可能表示该网页是用户所需要的。可惜的是,这个貌似合理的方法实际上却行不大通。因为按照这种方法,任何一个像祥林嫂一样翻来复去倒腾某些关键词的网页,无论水平多烂,一旦被搜索到,都立刻会“金榜题名”,这简直就是广告及垃圾网页制造者的天堂。事实上,当时几乎没有一个搜索引擎不被“祥林嫂”们所困扰,其中最具讽刺意味的是:在谷歌诞生之前的年11月,堪称早期互联网巨子的当时四大搜索引擎在搜索自己公司的名字时,居然只有一个能使之出现在搜索结果的前十名内,其余全被“祥林嫂”们挤跑了。正是在这种情况下,年初,谷歌公司的创始人,当时还是美国斯坦福大学(StanfordUniversity)研究生的佩奇(LarryPage)和布林(SergeyBrin)开始了对网页排序问题的研究。这两位小伙子之所以研究网页排序问题,一来是导师的建议(佩奇后来称该建议为“我有生以来得到过的最好建议”),二来则是因为他们对这一问题背后的数学产生了兴趣。网页排序问题的背后有什么样的数学呢?这得从佩奇和布林看待这一问题的思路说起。在佩奇和布林看来,网页的排序是不能靠每个网页自己来标榜的,无论把关键词重复多少次,垃圾网页依然是垃圾网页。那么,究竟什么才是网页排序的可靠依据呢?出生于书香门第的佩奇和布林(两人的父亲都是大学教授)想到了学术界评判学术论文重要性的通用方法,那就是看论文的引用次数。在互联网上,与论文的引用相类似的显然是网页的链接。因此,佩奇和布林萌生了一个网页排序的思路,那就是通过研究网页间的相互链接来确定排序。具体地说,一个网页被其它网页链接得越多,它的排序就应该越靠前。不仅如此,佩奇和布林还进一步提出,一个网页越是被排序靠前的网页所链接,它的排序就也应该越靠前。这一条的意义也是不言而喻的,就好比一篇论文被诺贝尔奖得主所引用,显然要比被普通研究者所引用更说明其价值。依照这个思路,网页排序问题就跟整个互联网的连接结构产生了关系,正是这一关系使它成为了一个不折不扣的数学问题。思路虽然有了,具体计算却并非易事,因为按照这种思路,想要知道一个网页Wi的排序,不仅要知道有多少网页链接了它,而且还得知道哪些网页各自的排序——因为来自排序靠前网页的链接更有分量。但作为互联网大家庭的一员,Wi本身对其它网页的排序也是有贡献的,而且基于来自排序靠前网页的链接更有分量的原则,这种贡献与Wi本身的排序也有关。这样一来,我们就陷入了一个“先有鸡还是先有蛋”的循环:要想知道Wi的排序,就得知道与它连接的其它网页的排序,而要想知道哪些网页的排序,却又首先得知道Wi的排序。为了打破这个循环,佩奇和布林采用了一个很巧妙的思路,即分析一个虚拟用户在互联网上的漫游过程。他们假定:虚拟用户一旦访问了一个网页后,下一步将有相同的几率访问被该网页所连接的任何一个其它网页。换句话说,如果网页Wi有Ni个对外链接,则虚拟用户在访问了Wi之后,下一步点击那些链接当中的任何一个的几率均为1/Ni。初看起来,这一假设并不合理,因为任何用户都有偏好,怎么可能以相同的几率访问一个网页的所有链接呢?但如果我们考虑到佩奇和布林的虚拟用户实际上是对互联网上全体用户的一种平均意义上的代表,这条假设就不像初看起来那么不合理了。那么网页的排序由什么来决定呢?是由该用户在漫游了很长时间——理论上为无穷长时间——后访问各网页的几率分布来决定,访问几率越大的网页排序就越靠前。为了将这一分析数学化,我们用Pi(n)表示虚拟用户在进行第n次浏览时访问网页Wi的几率。显然,上述假设可以表述为(请读者自行证明):Pi(n+1)=ΣjPj(n)Pj→i/Nj这里Pj→i是一个描述互联网连接结构的指标函数(indicatorfunction),其定义是:如果网页Wj有链接指向网页Wi,则Pj→i取值为1,反之则为0。显然,这条假设所体现的正是前面提到的佩奇和布林的排序原则,因为右端求和式的存在表明与Wi有链接的所有网页Wj都对Wi的排名有贡献,而求和式中的每一项都正比于Pj,则表明来自那些网页的贡献与它们的自身排序有关,自身排序越靠前(即Pj越大),贡献就越大。为符号简洁起见,我们将虚拟用户第n次浏览时访问各网页的几率合并为一个列向量Pn,它的第i个分量为Pi(n),并引进一个只与互联网结构有关的矩阵H,它的第i行j列的矩阵元为Hij=Pj→i/Nj,则上述公式可以改写为:Pn+1=HPn,这就是计算网页排序的公式。熟悉随机过程理论的读者想必看出来了,上述公式描述的是一种马尔可夫过程(Markovprocess),而且是其中最简单的一类,即所谓的平稳马尔可夫过程(stationaryMarkovprocess),而H则是描述马尔可夫过程中的转移概率分布的所谓转移矩阵(transitionmatrix)。不过普通马尔可夫过程中的转移矩阵通常是随机矩阵(stochasticmatrix),即每一列的矩阵元之和都为1的矩阵(请读者想一想,这一特点的“物理意义”是什么?)。而我们的矩阵H却可能有一些列是零向量,从而矩阵元之和为0,它们对应于那些没有对外链接的网页,即所谓的“悬挂网页”(danglingpage)。上述公式的求解是简单得不能再简单的事情,即:Pn=HnP0,其中P0为虚拟读者初次浏览时访问各网页的几率分布(在佩奇和布林的原始论文中,这一几率分布被假定为是均匀分布)。以上就是谷歌背后最重要的数学奥秘。谷歌的搜索引擎问世之后,其他搜索引擎公司的技术人员都大为震惊:“怎么可以做到这样?”最初,几乎所有人都不知道它的运行机制。电影《星球大战》预告片全世界同步公开的时候,几乎所有的服务器都因为点击率过高而崩溃,唯有Akamai的服务器坚挺不倒。为什么只有谷歌可以搜索?为什么只有Akamai的服务器不会崩溃?这就是令人震撼的数学能力差距所导致的技术鸿沟。今年7月,科技部、教育部、中科院、自然科学基金委联合印发了《关于加强数学科学研究工作方案》,要求加强数学科学研究,持续稳定支持基础数学科学。为何要专门发文强调数学的重要性?这是因为,作为自然科学基础的数学,实质上也是重大技术创新的基础,直接影响着国家实力。现阶段,几乎所有的重大发现都与数学的发展与进步相关,数学已成为航空航天、国防安全、生物医药、信息、能源、海洋、人工智能、先进制造等领域不可或缺的重要支撑。我国在很多领域研究遭遇卡脖子的困境,也和数学研究滞后有关。因此我们可以说提高数学研究能力,可不是靠刷题能解决的。举个例子,许多工程设计需要通过试验来印证,但多做试验费钱、费时,整个设计耗资大而且周期拉得很长,而且很多与国防科技相关的技术也不能轻易试验,都要通过数学建模的方式来模拟。我国在原子弹和氢弹的试制过程中,因为充分发挥了理论分析和数值模拟的作用,造原子弹时所用的试验只占西方国家的十分之一,而从原子弹到氢弹只用了二年零三个月的时间,就是数值模拟发挥了作用。去年初,借由中兴事件引发的中国芯片之痛的追问,也可以延伸到数学研究的薄弱上。而华为则在这方面,因为早早看准了基础理论研究的重要性,从而避免了中兴曾经遭遇的窘境。华为曾在3G和2G领域的算法层面带来了革命性突破,让其产品在产品红海中杀出了一条生路,靠的就是其高薪聘请的俄罗斯数学家,而俄罗斯正是世界上名副其实的数学强国。为什么华为有多个数学家、多个物理学家、多个化学家?1月17日,华为创始人兼CEO在深圳接受央视记者董倩专访,该节目于20日晚上在央视《面对面》节目播出,这是他首次接受国内电视媒体专访阐明这一观点。任正非讲过一段话,说明为什么华为要坚持投入基础理论研究。华为现在的水平尚停留在工程教学、物理算法等工程科学的创新层面,尚未真正进入基础理论研究。随着逐步逼近香农定理、摩尔定律的极限,而对大流量、低时延的理论还未创造出来,华为已感到前途茫茫、找不到方向。华为已前进在迷航中。重大创新是无人区的生存法则,没有理论突破,没有技术突破,没有大量的技术积累,是不可能产生爆发性创新的。当第三次工业革命带来的技术红利消耗殆尽,世界经济增长陷入低迷,数学或许能够成为引领下一波技术创新的突破口。从这点上来看,我们真该好好想想,中国人的数学水平真的领先全球吗?我们究竟应该怎么学数学?
转载请注明:
http://www.aideyishus.com/lktp/7834.html