Sunday, April 24, 2016

人工智能有多远(2)--关于‘深度学习’的一点浅见

前一篇讲到的AlphaGO,用到了现在特别火的一个机器学习的技术,深度学习。深度学习主要的应用范围是图片,在语音和text-mining方面也有一些应用。在图片方面应该说目前没有别的替代。但是一个技术火不火,不能用它适用的范围来评判。一个真正火的技术,要在那些根本不适合的地方也被人用到。这就好比一个牌子的包包怎么能说很流行呢?如果只是年轻的女孩子背一背,那不算流行。只有等到根本不再适合的人群,比如我们这个年龄的大妈,还有老奶奶,也去背,那才算是真正的流行。

根据这个标准,深度学习的确是火起来了。因为我观察到两个现象,第一个,一些根本不适合用深度学习的领域,也在用深度学习。很有代表性的,就是我们生物信息了。几年前,我读到一篇文章,讲到只要用了深度学习,从DNA的序列直接就可以学习出来能得啥病。其中有一段,讲到他们用了深度学习之后,准确性的p-value是1e-300。读到这儿我就笑了,作者显然没有啥基本生活常识。宇宙中的原子才1e280个左右。生物信息目前最大的问题恐怕就是很多组在比宇宙大的多的scale上operate。其实,他们在算这个数据的过程中,机器正好被宇宙粒子击中而出错的概率要远远大于这个p-value。至于他们这个算法或者数据上出错的概率,或许是应该接近1的。根据我的经验,深度学习在这方面的performance应该不会超过线性回归。

第二个现象,就是突然生出了一堆深度学习专家。就说我们系吧,近些年一下多了好几个深度学习专家。我有一次,就听这么一个专家说了,其实他们也不知道咋弄,都是直接把别人的模型拿过来做预测。根本没有训练的过程。至少我们领域现在大部分这种所谓深度学习专家都是这种似懂非懂的。

这让我想起一个故事。居里夫人发现镭之后,放射物质当时被人们认为是无所不能的,就好像现在有些搞机器学习的傻白甜认为深度学习是无所不能的一样。到了什么程度呢?当时的产品,特别是食品,饮料,都以加了放射性物质作为卖点。掺了放射物质的饮料可以当作包治百病的保健品。这个事情一直持续到居里夫人因接触过多放射物而病逝。其实科学史上类似的事情特别多。一个热点,常常能够迷惑大众,又使后来人攀错科技枝。

正因为这个原因,我对深度学习这个技术一直比较抵触。直到最近,因缘巧合,才开始做一些这方面的实验。现在有些人出于不可告人的目的,造出一个假象,好像深度学习是终极solution。又有一些人,由于脑力所限,就把这个假象当真了。最可笑的就是常常看到一些文章,号称深度学习的结果比人眼label的还好,同时,用的是人眼label做的标准。这就好像说我们现在天气预报的准确度,已经超过了真正天气是怎样的准确度。本身就是一个悖论。至少根据我这段时间实验的结果,深度学习,即使是在它最适合的图像识别方面,也还远远没有达到人眼的程度。当然也有可能我做的不对,总是需要很多预处理,离自动化或者人工智能,还差的太远。

最近读文章注意到一点,就是有些人写一个新的神经网络结构的时候,用的词是'discover' -- we discovered such a structure。这个地方很有意思,一般来说,如果一个系统,一种方法是设计出来的,那么应该用we developed/designed such a structure,而不是discovered。比如,肯定不能说,we discovered computer, we discovered an algorithm, 对吧?什么样的东西需要discover 呢?自然界的东西,你原先不知道他的存在,而且你不知道他怎么work,才需要discover。比如,we discovered DNA, we discovered black hole。做出一个神经网络的时候,用的是discovered,就足以说明,作者并不知道它是怎么work的。只不过碰巧这么一种结构就work。从这一点上来看,深度学习现在还是一个黑箱,并没有人真正理解其意义,也无从谈起利用其实现人工智能。

《人民日报》前不久发表了一篇社论,题目叫做《思考的尊严只属于人类》。这是我少有的赞同的一篇社论。下篇写一下我在这方面的一些看法:人的生理需求与智能的不可分割性。


注:前几天没能出去,昨天到院子里一看,竟然已经误过了桃花的花期。连梨花都开到了鼎盛,整个小区一片片白色,如入仙境,一副‘千树万树梨花开’的景象。

No comments:

Post a Comment