年底要到了,又是总结的时间。接下来会发一些专栏文章。
之前推广的工作之一alpha-CL,这次中了NeurIPS Oral,非常高兴。这是第一次单一作者文章中Oral,感谢评委们的肯定,也证明在完成团队指导推进的主业工作的同时,分出时间来亲自做一些理论工作,是完全可行的。
这篇总结一下做深度学习理论分析的一些心得。
深度学习理论分析里面,有大量文章是套用已有的简洁漂亮的数学工具,去解释深度学习的一些现象。这样做见效快,出文章也容易,但也有很大的缺点。
一个主要的问题是,在套用和建模的过程中,就已经不知不觉地把问题的关键部分丢掉了。比如说,把一个复杂的非线性优化问题建模为凸问题,那就磨去了问题的棱角;把神经网络的优化看作是一般非凸问题的梯度下降,那就丢掉了问题的特殊性。这时候再试图使用高级的技巧去寻求好的解,就很难有实质意义了。
如何跳出这种“套用”的思维定势,找到一条不一样的道路呢?
我觉得,在解决新问题的时候,不应该一味地从漂亮简洁的数学形式出发,而应该从问题本身出发,就其在实践中出现的最大疑问,进行深入的挖掘。这样做来,所获得的数学框架不一定十分简洁,各种杂七杂八的东西很多。然后,再从里面提炼出最能反映问题本质的部分,做大胆的假设,构建严密的逻辑链条,去掉一些次要因素,保留最重要的部分,并且加以提炼以找到问题本质。最关键的一点是,所获得的结论,还要回到实验中进行验证。这不仅可以验证数学推理本身的正确性,更重要的是,实验可以检验是不是理论分析抓住了本质。
探索和打磨是“因”,而简洁是“果”。如果倒果为因,拿着简洁的工具到处去套用,形成了路径依赖,那在面对全新问题的时候,反而会把自己坑进去。数学可以是向天空腾飞的翅膀,也可以是束缚于地面的镣铐,形式的优美,反而可能会成为甜蜜的陷阱。
那么,为什么描述自然现象的物理规律,在数学上竟然如此简洁漂亮呢?
这就要用历史的眼光来看了。牛顿的《自然科学的数学原理》,热力学定律,麦克斯韦方程,都是先有繁杂的手稿,不甚严格的推导,然后从中一点点提炼出最本质的部分,找到更好的理论构建之路径,在几百年和几代人的努力下,将数学形式修改得越来越优美漂亮,最终反哺数学本身,提供新的工具,甚至产生新的数学理论。
这种数学上的美感,往往源自于中间概念的引入。没有向量和矩阵就无法简单精确地描述动力学系统,没有4-形式就无法在一行公式里写出相对论,没有群环域无法讲清楚一元五次方程不存在求根公式。我甚至觉得,任何一个自洽的数学理论,不管它是不是符合现实世界,有没有用,只要花足够时间精力,总能把它打磨得漂漂亮亮。但能否找到一个自然界遵守的,则是完全另一回事了。现在用起这些工具来理所当然,但当年如何从无到有构建起来,并且要和现实充分贴合,这中间的难度就可想而知。
用通俗的话来讲,世上本没有路,走的人多了就有了路,而且随着来访的人越多,路也越修越好,大大降低了来访的难度。但这并不意味着我们探索最美的风景时,只能去那些有大路通行的地方。无限风光在险峰,要做别人做不出来的深入工作,就得要从头开始的勇气。
这个过程在物理学的发展中走了一遍,对于深度学习的理论分析来说,我觉得可能也得要走一遍,把各种看起来漂亮但没用的坑都踩过,才知道什么样的数学形式和逻辑结构,才是对于深度学习而言最适合的,而不是借用已有的成熟框架,找到了一些表面联系,就匆忙下结论说“深度学习其本质就是XXX”,这可能并非达到真理的途径。
这些全都加起来,对研究者的要求就非常高了:既得要对问题有丰富甚至一线的实操经验,又要能熟练使用数学工具对现象进行建模;既要涉猎广泛,对各种工具都熟悉,又要有在必要时从底层构建的能力,难度是很大的。
然而,问题“难”并不意味着要放弃。我不相信深度学习这一大类现实上行之有效的简单算法,不存在一个自洽的理论来解释。如果我们的目标只是专注于将现有方案及现有框架调参至最优,那现在的人工智能,也就很难逃出“术”的范畴,达不到“道”的高度。而达不到“道”的高度,就永远无法构思想像那些“合理精准的伟大跳跃”,像“把空气中的二氧化碳变成食物”这样的工作,若对化学基本原理没有精确刻画,就几乎不可能发生。
完全抛弃“深度学习存在理论”的想法,而以纯粹的黑盒调参对待它,这在目前可行,但在论文贬值,大环境越来越卷的将来,作为一个研究者就很难脱颖而出。为了保留这份独一无二的“非凡特性”,能做到的,就是在严苛的竞争之中,尽量保留思考的努力,开拓一套自己的方法论出来,说不定有一天,它会指引下一次的突破。
这就是,坚持理论方向的意义。
