近日△▷……,DeepMind 发表博客介绍其对神经网络可解释性的最新研究▷=●▲◁◁。受神经科学▼-◁,他们通过删除神经元来探索其对网络性能的影响●●☆◇-…。研究发现▽▪●◁●▷,和过去的经验直觉相反•▽△,选择性神经元(如「猫神经元」)对于网络的泛化能力并不重要…●△▪=■。而某些行为难以理解的非选择性神经元却是不可或缺的…◁●。此外★◁◁◆◆,作者还对比了泛化好和记忆好的网络对删除操作的响应行为▷▷▲○▲★。

  深度神经网络由很多的神经元组成○•■,这些神经元以一种复杂而反直觉的方式结合…◆▷△□▲◁,从而完成一系列的挑战性任务◁◇▲。这一复杂性了神经网络的效力▲▪▽▲□■▽,但也使其成为了一个令人困惑且不透明的黑箱△•◇☆…。

  理解深度神经网络的工作原理对于解释其决策、构建更强大的系统来说至关重要☆●-…◇◇。比如▼•…□▪▽,想象一下■◇○,如果不了解每个齿轮之间的协作原理◁=•○▷▷,那么制造一个钟表该有多么困难●…●•○。探索神经元的作用★◁★◇▷●,尤其是那些可以轻松解释的神经元■▼••,可以帮助我们理解神经科学和深度学习中的神经网络□•◁◇▲▼◇。

  我们的论文On the importance of single directions for generalization 将很快出现在 ICLR 2018 上▽▷◇■•□,它使用一种受到数十年神经科学实验的方法来决定深度神经网络中小批神经元的重要性▽-▼●▷•,以及更易解释的神经元对网络计算是否更重要•★▽,从而探索带来的影响★▲▽…。

  我们通过删除单个神经元和神经元集群来测量网络造成的性能影响○•◇●。实验得出了两个出人意料的结果:

  尽管许多早先的研究集中探讨容易解释的单个神经元 (如「猫神经元」或深度网络中只对猫的图像有反应的神经元)=▪▷●△•▼,但我们发现这些可解释的神经元并不比激活行为难以解释的困惑神经元更重要-•■。

  与只能对以前看过的图像进行分类的网络相比•□★•▲■,能对未看过的图像进行正确分类的网络在神经元删除时表现出了更强的适应性▽○▽▷。换句话说◇▽◆◆,泛化良好的网络比记忆良好的网络对单方向的依赖要小得多◁…=…□。

  在神经科学和深度学习中■▷▷•☆▽,人们已经广泛分析了只对单一输入类别的图像(比如狗)作出积极回应的易于解释的神经元(「选择性」神经元)□==…○。在深度学习中□▲◇◇□■•,这导致了对猫神经元、情感神经元和括号神经元的重要性强调-=…▪▷○;在神经科学中则是 Jennifer Aniston 神经元□▪=○◆▪,等等◆•••。然而-▷△★◆▪●,相比于具有低选择性、高度困惑性和难以解释的行为的绝大多数神经元▼●◆▪△•▪,这些少量的高选择性神经元的相对重要性依然不得而知●☆☆▪▷●…。

  相对于那些对图像集做出似乎随机性的积极和消极回应的令人困惑的神经元▽▪=●▪☆●,带有清晰回应模式(比如只对狗积极回应◁□☆,对其他一切消极回应)的神经元更易解释……▼▲=-。

  为了评估神经元的重要性▲=◆-••,我们测量了当删除神经元时神经网络在图像分类任务上的表现是如何改变的••▲△■■◇。如果一个神经元非常重要△=-◁•,删除它的后果应该很严重○••,并导致网络性能锐减◁…△=•▪◇;而当删除一个不重要的神经元时则影响较小○○…△▷□。神经科学家也惯常地执行类似的实验●▷▲,尽管他们无法达到实验所需的细粒度精确度=•▼=▷,但应用于人工神经网络则毫无难度△-☆-。

  删除操作对简单神经网络的影响的概念图▼•◇-。颜色越深•●△☆▽,表明神经元越活跃△▷■=▲。尝试单击隐藏层神经元对它们进行删除□◁◁□★,并查看输出神经元活跃度的变化(原网页)◆■◇▷◁●▲。请注意▲◁•,仅删除一个或两个神经元对输出的影响很小◁▼▽■□◁…,注册送体验金68而删除大多数神经元则影响很大▽•□▽■,并且某些神经元的重要度高于其他神经元□○■•◆●!

  出人意料的是▽…☆=▷□,我们发现选择性和重要性之间没有什么关系◆▪○◇□△。换句话说○☆=◁,「猫神经元」并不比困惑神经元更重要…••◇☆▪。这一发现与神经科学最近的研究相呼应▽◁★,后者已经证明△•◇,困惑神经元实际上可以提供相当多的信息▲…◇,除了那些最容易解释的神经元之外●▪★-△◇,我们还应研究其他神经元▲☆★△,只有这样才能理解深度神经网络★◇•△。

  虽然「猫神经元」可能更具可解释性◆◁○□★,但它们相对于没有明显偏好的困惑神经元并没有更强的重要性■▪▪。可以尝试点击上图(原网页)来查看重要性和可解释性的几种可能关系(正相关、负相关或不相关)•-○◆■●。

  尽管可解释的神经元在直觉上更易理解(「它喜欢狗」)◇★◁□,但它们并不比没有明显偏好的令人困惑的神经元重要□▼◁•▲。

  只有当系统能泛化到新的场景中时●☆-○,该系统才能称得上是智能的■○=▲-。例如•-◁●•■,一个图像分类网络仅能分类它见过的特定的狗的图像•■◇▽○▽,而对于同一只狗的不同图像则为力▽○▽○,该网络就是无用的▼○▪▪●◆■。近期一篇由 Google Brain、Berkeley 和 DeepMind 合作的论文《Understanding deep learning requires rethinking generalization》表明深度网络可以简单地记住训练过的每张图像▪▪◁◆◆,而不是像人类一样学习(例如•…○▲▲=◁,理解「狗」的抽象概念)★▲▼□■◇。(参见•□△…☆▪●:解读 ICLR-17 最佳论文○■■▽:理解深度学习需要重新思考泛化问题)

  然而••△▼,关于神经网络学习到的解的泛化能力是由什么因素造成的••★-●,至今仍未得到清晰的解答•△●•▪。通过持续删除越来越大的神经元集群◇★▽◆,我们发现泛化能力更好的网络对于删除操作更具鲁棒性(相对于仅在训练过程中记忆图像的网络而言)•▼▪。换句话说▽●△,泛化能力更好的网络的性能更不容易崩坏(虽然仍可能崩坏)▷•=。

  通过这种方式来测量网络的鲁棒性▪★▼,我们可以评估网络是否使用记忆能力在「作弊」•◁▼▪。理解网络记忆过程中的变化•△…◆●◆,可以帮助我们建立泛化能力更好、更不依赖于记忆的网络○•▷••。

  综上□▽•=□◇,这些发现表明使用实验神经科学的技术可以帮助我们理解人工神经网络☆■△△•▷…。通过这些方法▲•■★•◇●,我们发现高度选择性的神经元并不比非选择性的神经元更加重要◆▷-,而泛化能力更好的网络相对于简单地记忆的网络△★•,对神经元的依赖性更小=◆▪◇◁▪。这些结果暗示我们▲…★,神经元的重要性可能小得多◁○…▼◆…。

  通过解释所有神经元在任务中的角色○=•,而不仅仅是那些更好解释的神经元•■◁,我们希望能更好地理解神经网络的内部工作原理=▲□☆◁◁▼,并通过这种理解构建更智能和更通用的系统=•●☆△。

  尽管有能力记忆大规模的数据集★▼…,深度神经网络通常也能获得良好的泛化性能=◇▲。然而•□…,关于神经网络学习到的解的泛化能力是由什么因素造成的…▼▽◁◇,至今仍未得到清晰的解答●■●△。此外•■=,人们曾强调过探索单个方向的微调属性(被定义为一个单元或多个单元的线性组合的激活值对一些输入的反应)的方法●★○▪▲▽,但其重要性也未被评估过◆◆-。在本文中•□▪◇…,我们将这些探究方向连接起来◇●■,并证明网络对单个方向的依赖性可以很好地预测其泛化性能(通过让网络在不同比例的损坏标签的数据集上训练■■◁▲☆,让网络在未修改标签的数据集上训练并集成▲▲…=■,进行不同的超参数试验以及多项训练试验)☆○▪。dropout 仅能在一定程度上将这个量正则化△…◁★▽▼○,批量归一化却隐含地会减弱单一方向的依赖性•○•■=□◁,这部分是因为减少了单元的类别选择性•-□△=•。最后•□★▪▽▼◇,我们发现类别选择性并不能很好地预测任务重要性…▲…=▲■▪。这不仅意味着网络可通过减少选择性来最小化对单元的依赖性●★□▼▼▼●,从而提高泛化能力○◁–□○•;还表明地选择的单元对于强大的网络性能可能不是必须的▼◆□▽•。

  我们议题的名称是「神经元网络是否是复杂系统模型的特殊表达形式▲…◆☆○▪?」○☆▽■○△,在开始自己的报告之前=▽◇▪▷…△,我必须首先明确地回答这个问题•▽▽•△●:特殊形式□▼-!否则就是今人对自己智力水平的「非分」评价•▼○,也是对未来人类智力的无理限定●○•△。下面我就自己 30 余年的科研经历□●•○◁,谈一下我所知道和体会的▽…-▼▼,利用神经元网络从复杂性到智能化尝试的一段特殊径□◇▼◁□●。

  上世纪 80 年代末甚至 90 年代中▲◇…••★◁,大家写论文谈神经元网络▽•△▼◁★▽,一般总要加一个形容词▼•■•••:人工(Artificial)•△◆,即人工神经元网络(ANN★◇•▷••,Artificial Neural Networks)■□★●○。今天 ANN 这个词已经很少用了☆-…■▲,一些年青学者甚至不知道•△▷◁•▲▼。回想起来▼☆◁=,神经元网络的发展就是一个活生生的把实的做成虚的▼□★△-○,虚的再做成实的案例▷★▽☆●■:从人工神经元网络 ANN○☆◆,到神经网络 NN▷=▽◆◇,到深度学习 DL▷▲•▼○◇,再到生产式对抗网络 GAN☆▷△▪○••;从不被人工智能研究主流认可●●●★,连边缘化的地位都不给☆★◁◇□△▲,以「计算智能」的名义「私奔」门户…△△=□,到今天居然成了人工智能的「救命神草」主力主流☆▪◁△,似乎实在的生物大脑「虚」了▽☆▷□▷,人工的计算大脑「实」了▼▼•☆,甚至引发「人脑不如机器」的人工智能论■■◇…•◁。不错•▪★▪☆•…,这就是一段把虚的弄成实的★▪☆▪…◇,把直觉弄成经验再向认知前进的活生生历史和现代史=◆●△□。

  为什么这么说呢•△◁…▽?这要从一本书和一篇论文谈起○▲…。书就是差不多百年前罗素和怀德海的《数学原理》◇-◆,三大本□◇◇☆=○•,整整写了十年多◁★●,单单为了证明 1+1=2(不是哥德猜的 1+1=2◇○•-▲,是小学生的 1+1=2) 就花了 70 多页纸◆▼△,就是为了给数理推理的机器化打下一个无比的基础•▷==。当然…△★▽★,Godel 的不完备很快就证明这只能是梦想•▷◆▷□,属「想像智能」▽▪▼•……,不是「算法智能」可企求的◁▼▷★•▲。

  这本书曾激起无数人的直觉与▪-◁,连进病院甚至的都有■■●,尽管按罗素自己的看法▽◆□•,世界上差不多只有 5 个人认真读过他们的书◆▲▽□。真与假不知道●▲■◆,但有两个人却因此书神奇地走到一起☆▷•△☆•,真的就凭直觉「侃大山」般地「侃」出了今天的神经元网络◇▽…•■▷▷,最开始的 MP(McCulloch-Pitts)的模型◇▽○◁-★▲,这就是 1943 年麦卡洛克和皮特斯所发表在《数学生物物理通讯》上的「关于神经活动里内在思想的逻辑运算(A Logical Calculus of the Ideas Immanent in Nervous Activity)」◇▪•○。

  本来麦卡洛克是学心理学的☆◇▽◆▲★■,对哲学也感兴趣▲▷○◁◇。他读了《数学原理》之后◁▷■◇,凭「直觉」认定人的大脑就该照此「工作」◆★▼■▽◁,从美东到美中改行去了★…●◆,创立了差不多世界第一个大脑研究室◆○▪•=-▷,制作了世界上第一张大脑功能图△◁▼●▷●▲。皮特斯就更传奇了●☆△,出身社会底层◇◇●•□••,小时候不但被小朋友□•◆○•△☆,还被父亲■●=…▷。一天▼-•●▲◁,被打逃进图书馆避难◇★=▪●▲,结果一头「撞」到三卷本的《数学原理》○▽▲◆。没想到•◁▽●•○,这位连小学都没有读完差不多已是流浪儿的皮特斯▽▼•…,无师自通不但「翻」完《数学原理》▲○◇•▲▲,还写下厚厚的读书寄给远在英国的罗素•○▷▷★●。罗素读了笔记▷★●▼▽◁,立即回信请皮特斯赴英做他的研究生○•▼-▲▽▽!皮特斯不知所措□○○▽-,连邮费都付不起●●△◇,哪有钱赴英读书=▽▷☆-○,最大问题是小学还没毕业●▽-▪…•!万一罗素知道自己的又会怎样想•△▼△●□?直到后来从报上得知罗素赴-○△■★□▼,才义无反顾地离家出走☆▽==,去了★…▷-,至死再也没有回家过○△•◁•。在■★●…★,皮特斯认识了麦卡洛克…★●☆◇,才能得到了极大的欣赏▽▽=。麦卡洛克邀请经济拮据的皮特斯住到家中▪•△★…,晚上下班后聊天聊出了 MP 模型和 1943 年的论文○●▲▷■◁=。皮特斯的所作所为靠什么●☆▽?我真不知道◁▼…▪,这只能是天才的直觉▷○■☆☆◆◆。

  现在大家神经元网络就是这样开始的▼…▲◆•▼,核心是计算•…○◆★•。但你看原文的名字◆■…□★,是 Logical Calculus▲△▽◆,他们的目的就是逻辑的微积分◇☆•□●▼•,像布尔要给思维建模一样◁◁=△,希望为大脑里面的神经活动中无处不在的内在思想建模■•☆◇△。这着实比我们今天讨论的给直觉建模还要玄呢◆□▷•★▷!在论文里▽…▼△◇-,他们给出单个神经元的模型▷□▷▼,神经元组成不同网络的模型◁=◆,如何进行各种逻辑运算的方式○•☆…▪=,证明了他们的神经元网络可以从事各种各样的逻辑运算◇•◆▲…▪,自然包括 AND、OR 等等之外的 XOR◁-●●▷-。这是一篇有史以来引用最高的论文之一▲▪▷…=…•,当然▪○▲●-,真正读过此文的人也很少•–▽○,其实现在也没有必要再去读■▼★,除非研究历史或个人爱好◇□◆=☆◁。

  一本书、一篇文之后▲▲•■◆,就来了马文·明斯基□△●=,人工智能真正的四位创始人之二■•…■,其博士论文是讨论神经元网络的随机联结的★□◆○=。明斯基 1954 年的论文题目是•▽●○▷■:「神经模拟加强系统理论及其在大脑模型问题中的应用(Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain Model Problem)」○••。他与人工智能排第一的创始人约翰·麦卡西都是普林斯顿大学数学系的毕业生◁▷△☆。当时○=…★…▽▽,系里的老师认为明斯基的论文不够博文水平=◆◇◁☆,也不算数学论文…▽▪。最后▲▼-,还是靠冯·诺依曼一句◇◁◆□:今天不够不是■•□△□▼•,明天或许就够就是了☆☆◆★○•。这才解围顺利拿到了学位◁□☆◇。之后先赴哈佛做初级研究人员▽=-,帮助在 MIT 任教的麦卡西举办了 1956 年的人工智能第一次研讨会之后▼-★■☆,由麦卡西安排转 MIT 任教共同研究人工智能▲◇▲▽▷•。后来★▲△☆△▷○,二人分歧严重•◆◇●★,麦氏「败」走西岸的斯坦福大学◁○▼,也有了今日斯坦福的人工智能实验室△▷••☆▽。

  再一再二…◁○▪,不能再三▼▪…=。我要介绍的第三篇文章是弗兰克·罗森伯雷特 1957 年的报告《机▽▼☆○■:与识别的自动机(The Perception□◆△☆□•▪:A Perceiving and Recognizing Automaton)》☆•●•▷。他是明斯基纽约高中时的校友☆▽◆★☆-△,提出用差不多就是一层的神经元网络世界包打天下▲•=▽◁▼▼。你们只能想象当年的情景◁=▲,比今天的人工智能似乎还要热☆◇•…▷●●,美国的大报、纽约时报、华尔街、时代、电视、●▽▲•▲-,都是智能的时代要到了☆…=–▽:我们有弗兰克的自动机了=■●…▪▲,机器将替我们识别图像、语言、决策-□•,替我们想○◇△□▽,有了机什么都够了-=▼▲▲▼,一下子就把弗兰克送上了天◁●□,成名人了-◇▲●●。最后呢●…○▼★○,让明斯基一本书打翻在地□…●▪▲,成了神经元网络史上的一位大喜大悲的转折人物▲★◁•▼☆。

  真是好景不长-▽◆□,明斯基和佩伯特在他们 1969 年的合著《机(Reception△○△○□-■:An Introduction to Computational Geometry)》一就把弗兰克的机•▷=…▪△=:的新衣●□◆○,连一个简单的 XOR 都不能做■•★,最简单的模式都无法识别▪-★▲▷■,能做什么●•▽?还「智能时代」呢◁•○=!这本书的第一版是红色△-△▽▲▼◇,文化中十分忌讳的颜色•◇•▼。其实明斯基给军方的项目总结报告里更是把机说的一钱不值■▼▪,还隐含的意思▲▼=◁▪•▼。结果不但军方关于机的研究经费没了•▲★•,就连学界关于神经网络的研究也差不多整整停摆了十年△▷…•○□▪,这也是人工智能研究里的一个著名的冬天故事●■★=。

  弗兰克怎么办▪•-☆▽?这位马文的高中同学在一次单独的划船出游中再没有回来●▲■,好多人说是事故☆☆▲-…◇,但也有人说是▲◆●☆☆◆。其实当时候弗兰克连个正经八百的教授都不是●□▲-,他是 Cornell 大学的一个研究人员☆▪□◁▽•,在大学里全靠「软钱(Soft Money)」□▷=,没有「线(Line)」(有 Line 将由学校发工资▼-●◁▷■◁,旱涝保收)◁●▪,没有经费不但支持不了自己的研究和团队•▼▷▼●▪■,连自己的工资也没有了-☆☆◆◇☆▷,所以没有经费就得走人○■○•▷▲。遗憾的是弗兰克上错了船□-◁,走错了地方▽☆◁■-,再也回不来了-◁☆。

  十多年之后△▼★…★■•,大家都知道这是一场悲剧▷◇○▼=•…,由于韦伯斯的 BP 算法和辛顿等人的 PDP 一书…-◁▷••=,NN 网络「咸鱼翻身」又活了过来▼▪□◁,还有了今天的深度学习▽▲◇◆。这时候◁▪☆★•□☆,明斯基说他从来就没有把 NN 往死里打的意思○■•●,还把他们的书的新版改为象征和平的绿色△●•■▪,并献给死去的弗兰克☆…-★…○,但仍有许多人对明斯基的行为耿耿于怀▽■●,不愿原谅其所为▽●▲▷•=。

  实际上△▷…•★●●,这也是 NN 能够于人工智能之外单独成为一个国际学术组织的主要原因▪▪▽:开始叫神经网络委员会•◇▽○☆•,后改为神经网络学会◁▪▷□,最后于 2005 年正式改名为今天的 IEEE 计算智能学会▼★△▷•,特设弗兰克·罗森伯雷特纪念▪◇○。很长时间▼•■☆■◆,包括 90 年代甚至 10 年之前■▽•◇★▲○,你的 NN 文章送过来-▲◇,一些主流的人工智能会议或就一个字●◇☆-□:拒(Reject)=▪☆…,不信的话▲■◁▽☆…,大家可以查查当年的会议文集和▲★=•-◁。九十年代中期 NN 最热的领域在哪里◆△…?在控制◆○•◁▼,特别是自适应控制△-△…,这就是为什么在计算智能学会中有一大批控制自动化出身的核心人员的原因□••。今天◇=◁,NN 成了机器学习和人工智能的主力▪★□,但大家不应忘了这段历史○▽=,因为忘记了这段历史▽▷•,不是▲△…◇▽▼,那是▪•▷◆■•●,这里的忘记意味着进入了盲区▼▲■,忘记了实际应用的需求■○▼-…,可能再回人工智能的冬天☆◆◆☆▪▪,这是学术问题☆△-■▼★•。

  接下来的这本书就是尼尔森 1965 年写的《学习机器(Machine Learning)》◆▷▪…◆●,当年不叫机器学习▲★•□▽☆,但完全是一回事▽◆◇▷。这是我读博士时帮助很大的一本书○□▷▪,至今家里还有一本尼尔森签名的存本●◆•…•□◁。尼尔森是位把人工智能从「文学」为科学的大功臣-●…▪◆…,80 年代我读了他所有的书和大部分论文-●☆=★◇■,还写过书评▽◆…•。其实在《学习机器》中▽•☆•,尼尔森已经讨论了多层 NN 的一般逼近能力问题▽=★,只是太数学○▼▽☆-◆◆,当时一般的「工程师」教授不感兴趣△▽◇■●,估计连明斯基和佩伯特也没读过●●▼…•▼★,结果就出了《机》和弗兰克的悲剧▽□★□。当年明斯基如果多读点书◇•◇…□,就不会有神经元网络十余年的「死亡」▼▲△。我也曾问过尼尔森◆▲▷▼△:当年你为什么不站出来说明白-◁★▽◁?他也就笑一笑▼◁☆-,说那是早期的东西◇■◆,博士一完的工作◁=△,都忘记了这回事了★◇◁。

  韦伯斯 1974 年在其博士论文中提向的 NN 误差反向转播的 BP 算法为 NN 带来了第一次重大转机★▲•▷▼。BP 其实很简单△▲◁★△,就是把梯度算法分阶段算就是了•★▽◇。这也是一位天马行空的天才■▪★▽•▪,跨了许多领域许多职位许多兴趣▼●▽◁▪▽★,我认识他二十余年•▪●•,交往也有十余年-△◆,很有体会☆▼◁。他曾劝我一起研究量子力学 Bell 问题●☆●△▼◁,我只能拒之•◇◇-■。但 BP 的成名○◇☆•◁•,要归功于 1986 年出版的 PDP(Parallel Distributed Processing)这本书▲◆▽•,也是三卷书(严格讲二卷)◇•★▲▽,特别是辛顿等三人写的▷◆=▲:「通过误差学习内在表示(Learning Internal Representations by Error Propagation)」一章□•……☆▪。当时我们的实验室▼◁•-△,几乎张口闭口都是 PDP●▷▽◆,特别是做机器人视觉的几位研究生▲▽◆△▼▪★,大家用 BP 算了许多例子◁••▷,还与 Hopfield 网络还有 Boltzmann 机结合起来○=△●□◁◁,做了许多探讨▷△★▽▲▲▽,但论文发表不了☆▷○。记得后来一位来自 IBM 的带薪博士生的 BP 与 Boltzmann 结合的文章最后于九十年代初发表了▼…★,但我至今认为是错的◆▷◁■◁•=。

  其实 PDP 是一部编著•▷•,没有这本书△▲■△◆,当时的神经网络文章就出不来……◇○,因为很难被接收▪▼•▪★•,投了命运往往就是被打回来◁☆▼▽。在编著里发表文章…◁◆▼◆△•,当时一般美国的好大学里是不认账的•▽…,评职称升级都不算数☆◇▷◁◆▷△。可当年的 PDP 让大家意识到●○▷★☆,神经网络不是一层-▽=,可以多层▼★■▪▷□,不但是弗兰克的机▷☆◁▽◇◇-,这为 NN 重新播下了火种▪•▼▪…,终于有了今天深度学习 DL 的熊熊大火=▷◆=▼。PDP 不是计算机或人工智能领域的书○●▼,是心理学、认知科学、是个大杂烩、管的地方□★•,就跟当年中国是通过井冈山这个管的地方成功一样…▪△☆■,人工智能今天的突破●–■•☆◇,也是从无人之地兴起▷☆◁。许多人都忘了这段历史了•●▽,一心向往主流□▽•,忘了只有今日之细流○-◆★□▽,才有可能成为明日之主流△•▷。

  与传统思想的冲突•▽★•,我的记忆可能比一般人更深●-▽。我在博士论文中想用机器学习◆▽■▪,就连最基本的加强学习▪◁▽•■,老板都反对★□☆=◆■,而且反对▪•◆▽★。一不准神经网络 NN▷▼-,准模糊逻辑 FL▼-○•,因为一个是黑箱▪▲▪•…▼,不知道里面在算什么□☆•□◁,关系上哪去了▽▷▼★□■?一个评价更惨▽☆△…▷…•:「垃圾进◇=○,垃圾出(Garbage in☆△▪□•,Garbage out)」◆▽…★○,算什么逻辑•◁▲?连修课都不行…□-•••■。就像小孩一样●•○=☆▷,越是「大人」不准的=●▼,越是要干★◇…,等 1990 年自己当上教授后◆▷◆☆•◁…,我就立即安排了自己的研究生进行相关的研究工作■▷=★。

  巧的是•▷□=◆,此时我遇到二位「」-▪◆,一位是我们工学院的副院长★•-▼,时任 NASA 空间工程中心主任的 Terry T. Triffet 教授-○■,他在斯坦福读书时☆▽△□◆◇,曾是对我影响很大的 S. Timoshenko 教授的学生◇=◁–◁,所以我们有很多的共同语言◆△•○;另一位是量子力学创始人之一波恩的学生□•●•☆□,著名的 BBGKY 方程组中的 G☆■△▷,就是他的名字●△▽…,Herbert(Bert)Green 教授=◁▪☆□★…。二人「不务正业▽…-,偷偷摸摸」合作了三十多年●★☆,研究大脑▽▼▲◁,研究意识▷▪▷▼□◁,特别是用量子力学的纠缠研究意识▽◇▽-▷。其中格林是位围棋爱好者◁-□●,写过差不多第一篇用人工智能下围棋的论文◁◇△★◆□,他还是一位坚定的社会主义者▲▪◁○,人类家不可信●■◇△,将来必须由人工智能机器替人决策•☆…。那时格林正在院里做 Triffet 的访问学者▼◆…★▼,希望我与他一起研究大脑、计算机、围棋和意识的纠缠模型▲•◁▼▽▽•,但我表示这些问题离我的专长智能控制还太远☆■●◁。后来▽▼◇◁★☆,Triffet 表示给我的外星无人车和无人工厂的项目经费可资助一到二位博士生从事相关研究=☆▲,我才开始研究大脑的计算模型•▽-▲▼…。这是我的第一次半的研究经费-★…,20 多万美元-▲△,但有四位 PI▷=•■◇◆…。退休后▼◆-•▷▪,二人一起去了●•▼-◇,自己盖房住•☆▽•,一边写科幻小说•△•,一边研究纠缠与意识◆▽▼•…,还有他们的大脑 NN 模型★●●☆,用了许多化学里的知识和术语★▲▷。当年–△,他们认为自己的工作意义重大◆◇▽◆◁★□,可以获诺贝尔••☆●◇▲,忘了是物理、化学还是生物医学领域=●▽☆◇。

  当时我只有三个博士生▼▼●●•▪,第一位是位美国人●-▲▽▽◆◁,大学、硕士都是学物理的▽…★,还研究过弦论▲△••,因觉得物理博士方向天文毕业以后难找工作△▼△▷◇•◇,所以转行在我名下读机器人的工学博士■▪…•=,他表示不做脑的建模研究•☆○○;第二位是位韩国人-★▼★,现役军人•▼★…★,跟我读博士前在军舰上做了十年的舰长•☆◇▷,读博士就是为了回去升将军-●…=,只想做智能决策○★☆●◆▪,对大脑不感兴趣也没能力去研究▼●▷◇◇▪◆;特别是当时我不到三十岁●▪□◇△,这二位学生的年龄都比我大许多•☆•-,只好劝我的第一位中国来的学生跟我研究大脑••★。我给了他一本书名叫 Brain 的专著去读–••◁●,这是 Triffet 和格林推荐的☆◁★▪▪,说是当时最权威的大脑著作☆•★●,让我大脑、小脑、前脑、皮下层、海马体看得头疼◇▷…▼★=。注册送体验金68学生一周后回来◇••,说你看▪★…□▷,人家最权威的脑专家在序言里就说了▪●◁◆◇-=,目前对人脑大家几乎就是一无所知…•=★●■○,凭想象凭摸索●•▲,你现在让我去建数学模型▪□◇=-,怎么干☆▲▽•?后来他拿了一个机器人的硕士□○○,博士资格都考完了但不读就创业去了■▲◆,结果非常成功□△◁▪,幸亏当时没有跟我研究大脑◇△◁=▽•。前段时间回来见我▪●-,说现在意识到当年研究的超前◁★••,现在自己也开始投资人工智能产业了▼-○▽-。

  不到半年的时间◆▲•◁□•,我就与 Triffet 和格林产生了严重的分歧▽◇◆○◇,认为他们的线行不通◆•☆▪,希望从大脑宏观上的功能分区■•▷○=-,不是微观上的生理分区▽□▷◁……▲,进行突破○△★◇▼,试图为「黑箱」的 NN 建立类似于大脑功能分区的知识结构□☆●▼,使其「白」化…△■,让 NN 可以解释◆…△●▼,这就是 1992 年在 SantaFe 一次会议★▼◆○□▼,同年收入一本编著的「为神经元网络建立知识结构(Building Knowledge Structures into Neural Networks)」一文•○◆,后来成了博士生 Kim 的论文题目◇▽☆=★☆,补全算法于 1995 年发表在英文「模糊与智能系统」○…★□☆◁●,是约稿▷☆◁△•-▼。因为没有接收=▽•◆▷△•,当时的共识是 NN 三层网络就够了-▲▷▲★□◇,这是数学上的证明▪★■○•□,过了三层就是「罪」过□▼◁-◇○,可我们的模型是九层■-★,太了◆○○=•■■!我曾竭力说我们的九层是模块化构建式的△△-★,而且每个模块不超过三层▼•★○▷,还可以用解析式子代替△▼▷◇••,又可以封装化组装化-◆…•☆▷■,理论上不比三层复杂△▲■◇,不但可以自动加层减层▷▷▲,还可以去掉旧的或生出新的模块◇☆▼●□▷。

  但要命的是▲▼◇□▪•,当时算起来太困难○◁…▽,用手头最先进的 Sun Sparc 机器一个例子要算整整一个星期◇△▲△▷☆。有时 Kim 吃不准机器在干什么=▷◇,是算法问题算不出还是正在正常计算★▽□,常常夜里电话问我△◁■,可否停机查查•▷☆。当时他一家四口都来陪读▲…△•,周末也拖家带口呆在实验室◆◇▷•▲☆,十分担心没有结果不能按时毕业▼•◆•▽◁。后来其他学生告诉我△☆•○◆,Kim 有时晚上喝得大醉躺在实验室外的草场上•●-◁▪○★,不得不让校警送回家里…▽◆,不知是否是因为太担心他的研究而借酒减压所致▲▪★-○▪。不管怎样▽●▪,最后就是他提前一年获得博士学位-◁▲☆▽●○,注册送体验金68但说再也不碰这个问题了▷■□。所以 1995 年以后◇▲◁▷◇□■,我再也没有安排学生做这方面的工作▲-○▷,只是自己有时还想想这个问题□▲◇○△▲。去年 AlphaGo 之后▲◁○◆△,与几位学生和朋友在滑雪之余又讨论了一番▷■-◇,写了一篇英文论文◁▼●,之间整整 21 年◆◁◁•▽=•。我至今依然认为模块组装化仍是 NN 未来的方向☆▼▼▷=-。

  这些工作▷■○◁★■,当年对我的研究生涯的起步帮助很大★▼◁★▽▲,而且在没有正式发表前就得到了应用▽○…◆…△。先是根据这些想法写了一份立项书给美国基金会 NSF○□◆▽,没中☆▲●▷□▲,但项目主任电话我▪=▪▼,说他有权限批小额项目◁◆•●□,你的想法很有意思▽○△…△•,但申请十几万不行▼-▽=◇,几万接不接受-○…◁?我一听立即表示感谢◁▽▼•○●…,接受•★◇!写了一个 3.6 万美元的小项目申请☆◁–=,这就是我的第一个 NSF 项目○◇=:买了一个 F/T(力/力矩)传感器•…◁•□,用最老的机器人 PUMA 机械手挖石头◁•◁★…=▼。接着由格林引见▷★▪…☆▽,认识了我们医学院主管科研的副院长–◁●△◇■,来自的 Doug Stuart 教授☆○■▼,他邀我打了一生中的第一场高尔夫▲▪◇□。球场上-=□,Doug 对我说▲■○:你的那二位研究大脑的朋友「too pretentious」•▪=,你到我们实验室来看看▪▽■□◁▼。我当时在球场上真不知 pretentious 这个词的意思▼●•★◁□,否则可能当场就会他的邀请△…☆=○◆。后来▽◆◇□,参观了他的生物医学实验室(Arizona Lab)-●◆,看了插了十六个电极探头的小老鼠▷◆■□▲=●,讲了我的工作=•☆□▷。没想到他们认为我的工作很有意思=○▪▽,可用于飞蛾的嗅觉实验、电极信号识别、神经控制 (Motor Control) 等等○◁△☆☆。就这样△◁▽▼◇,我加入了 Arizona Lab▼◁△,这才知道当时美国医学研究院 NIH 的经费之零头也比 NSF 的全部经费多□▲▽■=,一下子解决了我许多经费问题…△■★■▲,而且我的工作也得到了医学界的第一次引用•◁☆。但最有「戏剧」性的应用是无人矿山项目-=▷▲=○△:一次我在一个会议上讲完我们用机器人挖石头的项目后■☆◁-,一位坐在后面的人一脸神秘找我和同事 Paul Lever 教授△▷○,说请我们尽快安排去 Caterpillar 总部■◁=▪,费用他付-▷○。我们在一个周末飞去了卡特彼勒总部▲▪★○▷▽,参观了研究部门之后▷△○★=,主管给了我们五张纸□◆○,上写「Auto Dig Project」▷☆●▽●-=,问我们是否愿意以此作为项目合同▷•○…,如可=-▲,一百八十多万美元○◆••…▼•,三年△●▽。后来又追加到 200 多万…◇★★▲●,原来的挖石算法了我个人 3 万美元…△-•▪▼。我不想在此形容当时的心情▼○○☆,反正自己辛辛苦苦写十五张纸的 NSF 项目书■◁○■▲,最多才给十几万◇■▼,而且当年命中率只有 10%△●◇●,万万没想到挖石头居然挖出「金子」来了…▪▽◇■=!就是这些经历△■■,让我从模糊逻辑和神经网络「当地简单、远程复杂」的代理控制想法▷◁▼■=•,了今天虚实互动的平行智能之▽□■=◆。

  回想起来▪-▪=■,从上世纪 50 年代末弗兰克一层的机-…◁,到 80 年代中多层的兴起▼▷-,但大家总觉得层数越少越好▷…▼◆☆▼=,等到了数学家证明三层就足够了的时候-•▼★◇•◁,大家就都觉得 NN 过了三层就是◁-☆,写更多层 NN 文章的作者自己都觉得不好意思◁◇▷。这是◁■◆☆○▪,想象力不够▽★■,胆量不足◁□◇▪■•。没想到 20 年后辛顿来了一个千万层▼○=▪▲,一下子成了深度学习了◁▽☆☆!我从心底里老先生的、胆量和想象力◇▲•…★,也怪自己忘了在哥德尔的不完备之后•★◁★-☆●,不该再让数学家」忽悠」了•◇▽◆。其实•□◇•-,多层提供了足够的参数进行复杂计算★■▼○▷◁,连「生命就是复杂化的物质」★●◁□▼,相信智能化的算法也能用多层的 NN 实现△○-●。当然-□…◁=-,能解释最好▽◁▽▷,这是我相信将来的出是模块封装再组装化▽▲★▼☆□,也是我提倡平行智能、平行学习和平行区块链的原因△○•。

  对我而言△△▼,基于深度学习的 AlphaGo 开创了一个新的时代…▪▪,就是新 IT 时代□★•,IT 不再是旧的信息技术•▲★○△▪◁,而是新的智能技术▲★◁,我们从此进入了以智能产业为主的一个新的时代◇▲◇◆□,这是从牛顿的「大定律、小数据」向默顿的「大数据、小定律」范式转移◁○■◆△◇▪,是从计算机和信息时代的「Church-Turing Thesis」命题向我所称的「AlphaGo Thesis」的转变◆▼▽■○。在这个新时代中○△◇◁▷▼•,直觉要变成经验•▲●-▼▽-,经验要变成数据■◇◁▷▲▷,数据要变成智能=••★▼★=,针对具体问题的具体智能…△○▲□◇,不再单单是关系▽☆△,更多的是关联关系△•◆▽▪●•,从描述、分析、控制到数据、实验、引导=◆▽■。

  今天的会议是关于复杂系统的认知和管理••▼▲=•,不是复杂系统的描述和控制◇▪◇△○▪●,因为无法进行传统的描述□★–□◁,更无法进行传统的控制……◆▷–●,否则☆•☆▷,越描述越不清楚▪■◁▷▲,越控制就越乱▪◇□▼•▪,问题越多◇■•■,最后无法■…★☆。我们必须换个思▽••,通过引导◁…★…□=,英文 Preion-▲△▷=▷●,就是医生开处方的意思●△○◆,对复杂系统像医生对病人那样的引导△◆▼,对症下药▼□▲▽☆○,最后实现对其的有效管理■●☆◇•-。一定程度上△•…,就是「忽悠」的数据化和科学化◆◆▼-,其实就是智能化-•□▼。

  神经网络在此过程上发挥着十分重要的作用▪■▽□,除了模型是人脑虚化而来之外◆▲◇▽◆,目前基于 NN 的深度学习和 AlphaGo 的胜利▪□▷▼◇◁★,说明 NN 是从牛顿到默顿的一条有效途径◇▽□○•△。例如…•○,AlphaGo 把人类的 80 万盘棋的「小数据」◁▷•●■,打成 3000 万△▪•☆•☆,后来 7000 万★☆…=◆●-,成为「大数据」★▼◁…,再提价值与政策二张网络◁☆△,成了「小规则」或「小知识」★□▷◆=▲☆,战胜了人类围棋高手▪◁▼●=,甚至让有的棋手觉得是与「」对弈*□▲▼●△□▷!将来「具体问题规则→小数据→大数据→小知识→具体问题的精准知识」会是大多数智能系统的套▼■■,取替传统的建模、分析、控制的方式…★▼•▪。

  而且▽▪●,NN 用于和决策等问题有许多不同的方式…•○•,这从近年来涌现出来的▪◇…,许多论文就可以看出▲▲△-□••。我特别要说的就是澳门大学陈俊龙教授的宽度学习和新加坡南洋理工黄广滨的极限学习▷○•◇,还有就是与我思目前最一致◇●◁•○,也是与平行学习最靠近的生成式对抗网络 GAN○◆◁▼△。GAN 通过把真与假平行而立□▼=◆◁,把一对矛盾体对立统一了●▼▪◁☆▲,成为产生数据的有效手段▼◁▲△○,这与我自己把虚与实平行而立的想法不谋而合◇…◁。但 GAN 是两端不全只是简单的平行=☆◇▽■◇,没有管理的平行学习●▲▼■▼▽▷。现在辛顿又提出要革「反向」BP 的命■…▪,我觉得不必-▪●▼○…,自己都不清楚 NN 在算什么特征代表什么•▪◆●•,革什么命△◆▷☆▪◁▪?演化就行-△△。我相信最后都是知识自动化之◆•▪□•,先从模块和组装化开始◁▽◆•,再向模块自动产生•▲-★○◆•,组装自动完成迈进▪▼…▲。

  总之▪■▲◆,神经网络在深度学习上达到了一个高峰▷-☆□★,可以说基本上是由直觉促成的-◆△▲☆◆。我个人认为目前最大的问题就是「开环」问题▽••…=,DL 处理的几乎都是开环问题★▷••。但如果要用到现实的实际问题★▼=•,就必须考虑「闭环」问题•●○▲=☆…,不但是识别对模式的决策◁△●…,还要有对行动的决策▽◆=,并直接反馈到下一个模式的产生◁★▼,问题是连续进行的…▽◇●☆■,一个接一个•▷◆▽■☆,就像在打仗一样▲○…▷△☆★。所以•▼□○▽▲◆,必须要考虑动态规划 DP 之类的问题○☆▪=☆•,大家都知道这里离散问题有「组合爆炸」▷▽◁,连续问题有「维数灾难」▼●○△▪◇,都是 NP-Hard 在作怪▪…○●■=。AlphaGo 解决了围棋的计算复杂性问题△□☆=△,难道我们就不能解决 DP 的计算复杂性问题-◆▼△?这就是我对 ADP 方法的期望★=○△,目前我们算到四、五阶系统都吃力=■○▷,将来平行动态规划 PDP 可否像 AlphaGo 一样比专家解 DP 还厉害…▼◁-□▽?答案是一定的★■☆□□▷-,问题是多少维数□◇▲◆◇▼▼?多大尺度•▪=?

  这个问题我也是从 1984 年就开始研究▲=▷=▼,从近似 ADP 到自适应 ADP◇●▽○▪▷■,从最小二乘法到迭代到 NN 代替■▼▷,数论布点都用过▪△△,还是利用直觉▼•☆◇,但比大脑建模时的直觉「解析」多了▪○☆=○▷,我相信 PDP(是平行动态规划•◆-▼▷▼○,不是 PDP 那本书)是一个很有前途的方法■▷☆,时间原因△△▲…△▲•,不能多讲●△△•▪=△,将来有机会再交流这方面的工作▪▼★★。

  平行学习是 PDP 的进一步扩展△★☆◇▽▪■,是描述学习、预测学习和引导学习的平行组合•■•□◆□,与宽度学习和其它方法都不一样☆▪◁。深度宽度还都是二维的方法●=▷▽●▲,

  *注•◆△▲☆-:在最近的 AlphaGo Zero 中•=•▷▲,人类的 80 已变成零▪☆◁,机器的 7000 万也减为 3000 多万□▪•☆▪○▪,学习时间缩成 3 小时◆△◆▪•。但凡是规则包含全部信息的问题中■◁▽◆△•,理论上本来就不需要人的知识和经验◇•…,比如跳棋和国际象棋的机器胜人◇•…◆,都没有利用人的知识▼▲▷▲=★。希望平行能三维或更高维的方法•▼-☆□▷◇,实施时可降维□●=☆▲…,这就是「当地简单▷▽▪▲•,过程复杂」的原理□▽△★,云计算就是为此而建的▽▪•◁。

  最后△◁☆▪☆☆,与大家分享两句名人之语◆▽•☆=。一个就是与中国渊源很深的…•○☆,帮我们发现周口店猿人的法国学者德日进的话●…-◁:生命就是复杂化的物质(见德日进《人的现象》)★▲…▲▼●。一个是明斯基讲的=△▽:智能的诀窍就是没有诀窍★…☆…△◁,智能的力量源们自己巨大的多样性◆▽◆★□★◁,而非任何一个完全的原理□▪■▲…。(见明斯基《社会》)◆△==-…。

  这都常相关的至理名言…▼△,据此▽▼…◆◁,我理解神经网络既是从复杂性到智能化的特例也是通例▲□○▲…▲•,在复杂性上相通••▪•=▲,在智能化上相异★☆△。关于仿真建模的相似原理◁△◁▽•▲■,对我而言◁△▼-,NN 不会是物理上的相似●▷=••,也不是生物上或结构上的相似□▼◁★,只能是功能上的相似□●…☆▪◇。至于置信性的考虑△■□☆,我们也必须从历史上的相关、的相关▽…▼■▪☆,到今据的相关○◇▲-○。相应的置信问题也应当进行调整▪☆◇▼,必须创新出更合适的方法★▪…●●△,就像引入虚数使 X2+1=0 有解一样☆▷●▼▽=,我们须用新的理解考虑置信问题▷△◇,如特定任务置信度等▷◇◆◇=△。这就是最后的六个问题■◇•△☆△,请大家进一步讨论◇▷◆▲■•。