人力资源

当前位置:首页 > 人力资源 > 文化活动 >

北京大学王立威教授:机器学习理论的回顾与展望(三)|亚博电竞竞猜官网

编辑:亚博电子竞技平台 来源:亚博电子竞技平台 创发布时间:2021-05-04阅读88329次
  

【亚博电竞】[AI科学技术评论]称:这篇文章是王利伟教授在中国人工智能学会AIDL第二期人工智能先锋学院*机器学习先锋中不做报告,用《机器学习理论:总结与未来发展》编辑整理而成的,在没有改变本意的基础上稍加删除。王立伟王立伟在北京大学教授的主要研究领域为机器学习。

亚博电竞竞猜官网

还包括COLT、NIPS、JMLR、PAMI等权威会议杂志,公开了60余篇论文。他是2010年被AI's 10 ~ Watch选定获得该奖的第一位亚洲学者。

2012年第一届国家自然科学基金优秀青年基金确保新世纪优秀人才。担任NIPS等权威会议的Area Chair和多家学术杂志编辑委员会。以下是王利伟教授所作现场演讲的第三部分,主要阐述了Margin Theory、算法稳定性等相关问题,并对深度自学算法进行了一些讨论。

| Margin Theory讲解机器学习中第二个重要的理论3354Margin Theory。Margin Theory和VC Theory的区别是什么?VC Theory和算法关系不大,描述了子集的复杂性。Margin Theory不一样。

它包含很多算法。后来我描述的Margin Theory几乎是在描述算法。

因此,机器学习理论的发展要理解为,从描述部分结构的性质逐渐转变为描述算法本身。(威廉莎士比亚、机器学习、机器学习、机器学习、机器学习、机器学习、机器学习、机器学习)我指出,目前特别是深度自学中最有价值的自学理论,显然描绘了深度自学算法本身的性质。(威廉莎士比亚,自学,自学,自学,自学,自学)当然,模型的复杂性也很简单,但它可能不是最重要的。

马丁是什么?Margin Theory可能听说过SVM、Boosting等方法包含Large Margin的概念。那到底是什么意思?Margin Theory对SVM如何使用非常了解。例如,想象一下空间中有正负两个点,现在要找一条线把这两个点分开。

(大卫亚设,Northern Exposure(美国电视剧))这两种类型的点分开后,与分类面的间隔越大越好。这个间隔叫做Margin。(大卫亚设,Northern Exposure(美国电视分类))Boosting也有类似的概念。如上所述,Boosting是在许多基本分类器中组合路线的最终结果。

Margin起到了什么作用?例如,当组成100个分类器时,要看这100个分类器中有多少是把这个数据看成积极的一点,有多少是胜利。(约翰肯尼迪,成功)如果50%是肯定的,50%是胜利的,那么实际上这个判断的结果是对数据没有Margin,Margin为零。如果100%的判定是对的,Margin就会很大。

因此,Boosting的Margin基本上反映了该Boosting使用的默认分类器对数据分类结果的信任度。如果100%被分为积极的种类,说明这个结果的可信度很低。

50%差不多的话,解释可信度很低。因此,这个可信度是用Margin来回应的,这本质上对泛化能力有最重要的影响。为什么不开始研究Margin Theory呢?第一次用VC Theory研究Boosting时,理论结果认定综合越少,基本分类器越少,泛化效果越差。

但是实际上,实验结果最终结合了数千个基本分类器后,一般化的性能并不差,而且还在大逆不道。因为看起来很奇怪,所以不仅要考虑模型的复杂性,还要考虑算法本身是否也会影响泛化。直观地解释:如何用Margin描述一般化?Margin可以通用SVM和Boosting。

但是我们再次忘记所有这些理论,从完全直观的角度思考。现在有两种情况。

第一种情况,我现在有分类器。这个分类器对大部分数据都有相当大的可信度。全部除以正数或全部除以负数。

亚博电竞

就Margin语言而言,大部分数据Margin相当大。第二种情况下,Margin比大部分数据小,基本上比50%多一些。

这两个分类器有很大的不同,但在这两种情况下,假定教育数据的教育错误率完全相同。教育错误率不能回答成对或错误地划分数据,可信度本质上是指明确分类值的大小。

如你所见,在训练错误率完全相同的前提下,可信度高的更有可能拥有强大的泛化能力,还是更有可能说可信度低?(大卫亚设,Northern Exposure(美国电视),骄傲)从非常直观的角度来看,即使不通过任何理论,也一定会发现可信度高的泛化能力更大。(乔治伯纳德肖)Margin Theory是在正确的数学基础上用严厉的语言解释刚才那个直观的想法。对数学感兴趣的学生可以看到里面数学的明确证据。

如果你对这个不感兴趣,解释我刚才说的话。也就是说,对于分类结果,不要只看教育错误率这个非常简单的数字,要注意Margin。

(阿尔伯特爱因斯坦,学)Margin表示信任度,信任度对泛化能力起着非常根本的作用。我和朱志华老师一起做了很多工作。特别是在说明Boosting。

这大约是十年前做的事。后来,周老师和他的学生们更了解,做了很多更精致的事情。

所以如果大家感兴趣,可以参考这方面的论文。| Margin Theory的总结VC Theory是宏观的。

这是对问题最简单的说明,算法是否对每个数据判断对错,只考虑模型的复杂性,用这两点来表示概括。Margin Theory表示应该更加关注算法,算法没有输入太多关于可信度的信息。只是在今天的深度自学中有一定程度的这个问题。

深度自学最后输入的不是对与错,而是实际数字,这个值本身包含了一定的信息量。这个值的大小可能只是可信度的大小。

(大卫亚设,Northern Exposure(美国电视),)作为研究内容,大家可以探索一下这个值对深度自学的泛化能力有何影响。从Boosting的发展过程中得到了什么启发?刚才我们谈到Margin Theory仅限于SVM和Boosting,还可以探讨两者之间的关系。

下面是Boosting对明确的Margin理论得出的数学表达式。这个表达式比较复杂。

最初,Boosting的明确提案人Freund和Schapire明确提出。这里面只是有很多故事请把这里面的故事说得很简单。

Boosting很有趣。总结机器学习的发展历史找不到历史。总是在大规模地重复。大约在1995年和1996年,人们明确提出了adaBoost算法。

这个算法明确提出后,大家都实实在在,这么简单的一个人怎么能大大提高性能呢?这看起来像魔术。看起来像今天的深度自学。它的方法只是把基本的分类者人造在一起。现在没有人需要解释为什么深度自学实际上产生了这么好的效果。

当年adaBoost算法首次出现时也是如此。(威廉莎士比亚、哈姆雷特、自学、自学、自学、自学)但adaBoost的明确提议者Freund和Schapire很快就得到了两人理论Margin Theory,其理由是Boosting用数学方法证明了需要分类器,Margin但是很快,随机森林和bagging的明确提案人Leo Breiman明确提出了Minimum Margin的理论。

这个理论在定量上做得更好,但实验结果与理论相反,——理论上更好的Boosting算法,理论上不好的Boosting算法的实验结果得到了很好的体现。因此,可以解释这个时期的实验结果和理论预测几乎相反,究竟是坚信实验还是坚信理论?(威廉莎士比亚,哈姆雷特,信不信由你)这时,我们要本着实事求是的精神,百分之百地同情实验结果。也就是说,理论上有什么问题。

(阿尔伯特爱因斯坦,爱因斯坦)因此,Breiman得出结论,Margin Theory的身份有很大的问题,不能说明实际现象。 几年后,通过学者,我和朱智华老师也在这方面进行了一些研究,我们找到这个理论并不是问题。

问题是,以前的理论在定量意义上没有做最坏的事情。如果能更好地理解定量,更细致的话,就找不到Margin的理论和实验观测了。

(威廉莎士比亚、哈姆雷特、科学)因此,关于Boosting的发展过程的故事对我个人来说是有启发的。但是有时算法的明确提案不会落后于理论。adaBoosting就是代表性的例子。

但是请不要生气。我们坚信越来越深入地研究、解释、深刻地自学是一样的。

我确信在即将到来的未来,我们在理论上不会对自学有更深的印象。(大卫亚设,Northern Exposure(美国电视),)关于王教授及其他教授的主题报告,请期待以前的报道。原创文章,发布许可禁令。下面,我们来听一下关于刊登的注意事项。

亚博电竞竞猜官网

|亚博电竞。

本文来源:亚博电竞竞猜官网-www.qimam1.com

0903-234406642

联系我们

Copyright © 2010-2014 秦皇岛市亚博电竞有限公司 版权所有  冀ICP备62790681号-3