选自Newyorker作者:SiddharthaMukherjee机器之心编译参与:侯韵楚、RickR、微胖、吴攀、蒋思源
深度学习系统变得越强大,它就越含糊。由于更多的特征被提取了出来,诊断本身变得越来越准确。然而为什么这些特征会从数以百万计的其它特征中被提取出来,这仍然是一个无法回答的问题。
棒球运动员一次又一次地抛了一百万次球,他可能不了解任何方程式,但是他知道球到底会有多高、能达到多大的速度以及它会降落到地面的位置。物理学家可以写方程式来判断同一件事物。但是二者终将殊途同归。——GeoffreyHinton
去年11月深夜,一名来自布朗克斯的54岁妇女由于剧烈的头痛而来到哥伦比亚大学医疗中心挂急诊。她对急诊室的医生说,她的视力已经变得模糊,左手无力且伴有麻痹症状。医生检查后,对她的头部进行了CT扫描。
几个月后,今年1月份的一个清晨,4名培训中医院三楼的一台电脑前。这个房间昏暗无窗,仅有几丝光线从屏幕映出,就像被海水层层滤过。隔间里挤满了人,哥伦比亚大学的神经放射科主任AngelaLignelli-Dipple正拿着铅笔和pad站在他们身后;她正在培训他们如何看懂CT扫描。
她说:「一旦大脑不工作了,变成灰色,很容易诊断出中风。技巧就是把握好诊断时机:赶在神经细胞过量死亡之前进行诊断。」中风通常由堵塞或出血引起,神经放射学家有大约45分钟的窗口期进行诊断,以便医生采取干预措施,比如,溶解正在变大的结块。Lignelli-Dipple继续说着,提高了决策时间所带来的巨大风险:「假设你正在急诊室中,每过一分钟,大脑的某部分正在死亡。失去时间就是失去大脑。」
时间一分一秒地流逝,她扫了一眼墙上的钟,问道:「问题究竟出在哪里?」
中风通常很不对称。血液会供给大脑的左右分支,而后会分解为细小支流;凝块或出血通常仅会影响其中的一个分支,导致大脑一部分出现异常。当神经细胞失去血液供应并死亡时,组织会略微膨胀,在扫描时,解剖结构之间清晰的边界可能变模糊,最终组织会皱缩,并产生干燥的阴影。但是,通常在中风后进行扫描的几小时甚至几天之后,阴影才会出现,此时诊断窗口期早就结束了。LignelliDipple对我说:「在此之前,扫描时仅会出现很细微的迹象」,即中风前兆。
这名布朗克斯妇女的扫描图像是对头骨的横切面切割图,就像是从底部切到顶部的瓜。医师们像是翻查一本手册一样浏览着图层,喊出解剖结构的名称:小脑、海马区、岛状皮层、纹状体、胼胝体、脑室等等。此时一名年近30的医师在一张照片前停下了,用铅笔尖比划着大脑右侧边缘的一片区域说道:「这里有些不对劲,它的边界很模糊。」但在我眼里,由于像素不清晰,整张图片都是不协调并且模糊的,但他显然发现了不寻常的情况。
「模糊?」Lignelli-Dipple刺探道:「你能描述得更详细一点吗?」
这名医师沉默着思索了一会,仿佛正在梳理脑海中的解剖结构,衡量着各种可能。之后他耸耸肩,说道:「它只是不一样。我也不清楚,它看起来很有趣罢了。」
Lignelli-Dipple展示了第二次CT扫描(比第一次晚20小时),此时,被那名医师指出的区域已经肿胀到了葡萄的直径那般大小,而且颜色显得很暗。之后展出的一系列连续几天的扫描图片让他们明白了真相——出现了一块明显的楔形灰色区域。她到达急诊室不久,神经科医师便试图用溶栓药物疏通堵塞的动脉,但已经太晚了。初次扫描的几个小时后,她便失去意识,被送往重症监护室。两个月后,这名妇女仍住在楼上的病房里,但此时她的左半部分身体——从上臂到腿都已经瘫痪了。
我跟随Lignelli-Dipple去了她的办公室。我想了解关于学习的事情:医生是怎样学习诊断的?机器是否也能做到?
一
年的秋天,我在波士顿开始了临床轮转(clinicalrotations),也开启了自己的诊断生涯。为了做好准备,我读了一本医学教育的经典教科书,这本书将诊断行为明确分为四个阶段。第一,医生利用患者的病史以及身体检查,搜集有关病人的疾病或身体状况的事实;第二,整理这些信息并生成一份可能病因的综合列表;第三,通过提问和初步测试,进行「鉴别诊断」——即排除一种假设并加强另一种假设,同时给出权重来表现疾病的常见程度,以及患者的病史、风险与暴露情况(谚语有云,不要把简单的问题复杂化);于是列表的可能项就变少了;最后,部署确定的实验室检查、X光或CT扫描以确认假设并确认诊断。数十年来,医学教课书都如实复制着这些步骤的变体,我们也从一代又一代医学院学生的身上看到了这幅图像:他们有条不紊、不辞辛劳地从症状找到病因。
但不久后我便得知,真正的诊断技术并不那么简单。我所在医学院的主任是一个优雅的新英格兰人,他总穿着抛光的便鞋,口音浓重,并以成为专家诊断医师而自豪。他会让病人表现出一种症状,比如咳嗽,然后再靠到椅子上,嘴里冒出一串形容词。他可能会说「微弱而刺耳」,或是「底部有嗡嗡声」,仿佛正在描述一瓶波尔多葡萄酒。而对我来说所有的咳嗽声听起来都一样,但是我会参与其中——「是的,刺耳」,就像酒会中紧张的南郭先生。
咳嗽分类学家会即刻缩小诊断的可能范围。他可能会说:「听起来像一种肺炎」,或是「充血性心力衰竭的湿疹」,接着他会询问一系列问题。病人最近体重是否有所增加?是否有石棉曝露的历史?他还会要求病人再次咳嗽,斜倚身子,用听诊器仔细听诊。他可能会根据结果得出另一系列的可能情况,就像突触的加强和削弱。而后就像路边魔术师的纵身一跃一般宣布他的诊断——「心力衰竭!」,并进行测试来证明它的正确性,而结果通常确实无误。
几年前,巴西的研究人员研究了放射科专家的大脑,来了解他们如何做到诊断。这些经验丰富的诊断医师是否对图像使用了心理「规则」?还是说他们使用了「模式识别或非分析推理」?
25名放射科医生被要求评估肺部的X光,而核磁共振成像机可以跟踪他们的大脑活动(这个系列的递归很棒:若要诊断诊断,成像器就必须成像)。X光在他们面前一闪而过。一些图片包含可能常见的单一病理损伤,可能是肺部的棕榈状阴影,或积聚在肺内衬层后面发暗且不透明的流体壁。嵌在第二组诊断图像中的是动物的线条图;而第三组则是字母表的字母轮廓。这三种图像会按照随机顺序向放射科医生展示,然后在核磁共振成像机追踪其大脑活动的同时,让他们尽快说出图像的名称。放射科医生平均需要1.33秒才能做出诊断。在这三种情况下,大脑亮起的区域相同:左耳附近的神经元宽三角洲以及颅骨后基上方的蛾形带。
研究人员总结道:「我们的研究结果支持这样的假设:当医生立即发现一种特征以及已知的病变时,这个过程与日常生活中命名事物的过程相似。」识别病变与命名动物的过程相似。当你认出犀牛时,你并不会考虑并消除替代的候选者。也不是在精神上将独角兽、犰狳和小象融合在一起。你会以一种模式认出犀牛的全部,而放射科医生也是如此。他们并没有沉思、回忆以及区分,他们看到的是一个普通对象。对我的主任来说,那些湿漉漉的声音也同样像熟悉的叮当声一般能够辨认出来。
二
年,英国哲学家GilbertRyle举办了一场颇具影响力的讲座,主题关于两类知识。一个孩子知道一辆自行车有两个轮子,其轮胎充满了空气,并且可以通过骑脚踏板让它前进;Ryle将这种事实、命题类的知识称为「知其然(knowingthat)」。但学习骑自行车涉及到另一个学习领域:这个孩子会在摔倒、平衡两个轮子以及穿过坑洼的过程中学会骑自行车。Ryle将这种隐性的、体验式的、基于技能的知识称为「知其所以然(knowinghow)」。
这两种知识似乎是相互依赖的:你可以使用事实性知识来深化经验性知识,反之亦然。但是,Ryle警告要抵制认为「知其然(knowthat)」可以简化为「知其所以然(knowinghow)」这种诱惑,因为一本规则手册无法教会孩子骑自行车。Ryle认为,只有当我们知道如何运用规则时,规则才能真正发挥作用:「例如,对鸟类来说,只有通过生活才能掌握规则。」一天下午,我看着7岁的女儿骑自行车通过一个小丘。她第一次尝试时停在了斜坡最陡峭的部分,然后摔倒了。下一次我看到她屈身向前倾斜,最初角度很小,随后越来越明显;而当坡度减小时,她会向后增加重量。但是,我从未教过她骑自行车爬上那座小丘的规则。我想,当她的女儿学习骑自行车翻过这座小丘时,她也不会教她这些规则。我们会传授一些与宇宙有关的规则,但是会将剩下的留给大脑。
参加完Lignelli-Dipple与放射科学员的会议之后,我曾与通过CT扫描发现早期中风的年轻人SteffenHaider交流了一下。他是怎么发现病变的?是「知其然(knowthat)」还是「知其所以然(knowhow)」?他以习得规则作为谈话的开始。他知道中风往往发生在一面,组织会轻微「变灰」,且常常伴有略微肿胀,造成解剖边界丢失。他说:「大脑中有些地方的血液供应特别脆弱。」为了识别病变,他必须在大脑的一侧寻找没有出现在另一侧的迹象。
我提醒道,他忽视了图像中很多不对称的情况。这个CT扫描与大多数情况一样,在左侧存在其他灰色的波纹,但右侧却没有,它们可能是妇女中风前大脑中的异常运动或潜在变化。他是如何把重点缩小到这片区域的?他停了下来,头脑风暴却仍在继续。终于,他开口道:「我不知道,有一部分是潜意识的」。
Lignelli-Dipple告诉我:「当你在学习中逐渐成长为放射学家时,这种情况就会出现,而问题在于机器能否以相同的方式『成长与学习』」。
三
年1月,计算机科学家SebastianThrun开始痴迷于医学诊断的难题。这位在德国长大的科学家很瘦,剃着光头,周身充斥着漫画人物的气息;他看起来就像米歇尔·福柯(法国著名哲学家——译者注)和憨豆先生的奇异组合。Thrun以前是斯坦福大学教授,领导者该校的人工智能实验室,后来离开创建GoogleX,领导会自学的机器人和无人驾驶汽车的研发。但是,他发现自己对有着学习能力的医疗设备有了莫大的兴趣。49岁时,他母亲因乳腺癌去世——正是他现在的年龄。Thrun告诉我:「大多数癌症患者最初并没有症状,我母亲就没有,当她去看医生时,癌症已经转移了。我沉迷于找到一种能在癌症早期就将其侦测出来办法——那时,还能用手术刀将其切除。我也一直在想,机器学习算法能否有所帮助?」
早期在自动诊断方面的研究往往与教科书代表的显性知识(explicitknowledge)领域紧密相关。以心电图为例(心电图将心脏的电信号变化转变为纸张或屏幕上的线条),过去的二十年来,电脑解读的通常是这些系统的特征。执行这些工作的程序通常比较直接,特征波形与多种情况相关(如心房颤动或血管阻塞),以及识别这些特征波形并输入到应用中的规则。当机器识别到这些特征波形时,它会把这种心跳标记为「心房颤动(atrialfibrillation)」。
在早期胸部肿瘤X射线透视技术中也是这样,「计算机辅助诊断」已经屡见不鲜。图像识别软件会突出显示疑似病变的区域,而后放射科医师会复查结果。但这种识别软件通常也是使用基于规则的系统来识别可能病变的区域。这样的程序没有内置的自主学习机制,即一台已经检查过三千张X光图像的机器并不比仅检查过四张X光图像的机器更聪明。年的研究对使用计算机辅助诊断设备前后胸部肿瘤X射线透视技术的准确性进行了比较,其中这些局限性变得异常明显。人们也许会预计在设备投入使用后,诊断的准确率会明显提高。但实际上设备产生的影响很复杂:在计算机辅助诊断组中,活体检查的准确率上升,但肿瘤学家最希望检测到的小型侵入性乳腺癌准确率却有所降低(甚至后续研究显示这种技术存在假正类(falsepositives)问题)。
Thrun确信,他能通过从基于规则的算法转变为基于学习的算法来超越第一代诊断设备,从「知其然(knowthat)」变为「知其所以然(Knowhow)」来作出诊断。Thrun使用的这类学习算法就涉及使用「神经网络」这种计算策略,因为该神经网络的灵感源于大脑运作的模型,所以其能完成这一学习过程。大脑中的神经突触通过反复激活而加强或减弱;这些数字系统旨在通过数学手段实现类似的目的,调整连接的「权重」来向预期输出靠拢。更强大系统会与神经元层级相似,每个系统会处理输入的数据并将结果发送到下一层。因此,出现了「深度学习」。
Thrun将皮肤癌作为切入点,特别是角化细胞癌(美国最常见的一类癌症)和黑素瘤(最危险的皮肤癌)。能否训练机器通过扫描图片将皮肤癌与良性皮肤病(如痤疮、皮疹或痣)区分开呢?Thrun推理道:「如果一名皮肤科医生做得到,那么机器应该也能够做到,并且可能会做得更好。」
一般而言,关于黑素瘤的皮肤病学教学会从基于规则的系统开始,就像医学生的学习一样,配有一套便捷的助记符:ABCD。黑色素瘤通常是不对称的(「A」——asymmetrical),其边缘(「B」——border)是不均匀的,而颜色(「C」——color)会变成斑块状且附有杂色,并且它们的直径(「D」——diameter)通常大于6毫米。但当Thrun在医学教科书和网络上查看黑素瘤标本时,却发现了不适用于这些规则的例外。
Thrun仍然是斯坦福大学的兼职教授,找了两名学生AndreEsteva和BrettKuprel帮助他进行研究工作。他们的首要任务是创建一个所谓的「教学集(teachingset)」:一个庞大的图像库,用来训练机器识别恶性肿瘤。Esteva和Kuprel通过网络搜索发现了18个由皮肤病专家分类好了的皮肤损伤图像库。其中包含了近13万张有关痤疮、皮疹、虫咬、过敏反应和皮肤癌等疾病的图片,皮肤病专家将它们分为近种疾病。值得注意的是,有一个包含个病变的集合已经由病理学家切片检查过了,因而它们几乎是被确诊的了。
Esteva和Kuprel开始训练他们的系统。他们没有制定规则;没有教它ABCD助记符。相反,他们是将图像和其确诊分类输入神经网络。我请Thrun描述这个神经网络的工作内容。
「想象用一个老式的程序去识别一只狗,」他说。「软件工程师会写出行if-then-else语句:如果它有耳朵,和一个鼻子,并有头发,且不是一只老鼠等等,这样循环往复完成识别任务。当然,这并不是一个孩子去学习识别狗的方式。起初,孩子会通过观察以及大人的告知来识别狗。她也许会犯错误,但能纠正自己。当她认为狼是狗时,大人们会告诉她狼属于一个完全不同的类别。于是她一点一点地改变了自己的认识:这是『狗』,那是『狼』。机器学习算法就像孩子一样,从一个已分类好的标注训练集抽取信息。如这是一只狗,那不是一只狗。然后,它从一组一组的训练集中提取出特征。接着,通过对成百上千张已分类图像进行自我测试,机器学习系统像孩子一样开始创建属于自己的方式来识别狗。」它就是知道如何去做(knowhow)。
年6月,Thrun的团队开始测试通过给机器一个「验证集(validationset)」的方式来了解它从图像主集合中学到了什么:一些经皮肤病专家诊断(虽然不一定是通过活检)的14,张图像。该系统是否能够准确地将图像分为3个诊断类别——良性病变、恶性病变和非癌生长?这个系统的正确率为70%。(该算法的实际输出不是「yes」或「no」,而是某个给定病变属于类别的概率。)两位得到委员会认证的皮肤病学家也在一旁做了测试,不过他们做得更糟:其正确率为66%。
接着,Thrun、Esteva和Kuprel又将研究扩展到了25位皮肤病学家,而这一次他们使用了一个*金标准——约张经由活组织检测证实的图像「测试集(testset)」。在几乎每一个测试中,该机器都比这些专家更加敏感:它不太可能错过一个(恶性)黑素瘤。它也比专家们更为明确:它不太可能将一个肿瘤错称为(恶性)黑素瘤。「在每一次测试中,该网络都要优于皮肤病学家,」该小组在《自然》杂志所发表的一份报告中总结到。
「还有一个有关网络的更深刻的东西没有在该论文中得到充分强调,」Thrun告诉我。在研究的第一版本中,他和团队开始使用的是一个完全的朴素(nave)神经网络。但是他们发现,如果是从一个已被训练成识别一些不相关特征(比如狗和猫)的神经网络入手,它会学得更快更好。也许我们的大脑功能也是这样。高中课程中那些令人头脑麻木的练习——因式分解、共轭动词、背元素周期表——可能会得到相反的结果:令人头脑敏锐。
在教机器时,他们团队必须得小心地处理这些图像。Thrun希望人们有一天只需提交其令人担忧的病变手机照片就可以得到诊断,这意味着该系统必须适用于多种角度和照明条件。但是,他回忆道,「在某些图片中,(恶性)黑素瘤已经被*圆盘标志标记过了。我们必须把它们裁剪出来——否则,我们可能就是在教计算机将*圆盘标志作为癌症标志给挑选出来。」
这是一个古老的难题:一个世纪前,德国民众被CleverHans迷住了,据说这匹马可以进行加减运算,并能够通过敲击蹄子来将答案传递出来。事实证明,CleverHans实际上是在感受驯马者的态度举止。当马蹄敲击数接近正确答案时,驯马者的表情和姿势就会变得放松。动物的神经网络没有学过算术,却学会了检测人类肢体语言的变化。「这就是神经网络离奇的地方,」Thrun说。「你不知道它们在使用什么信息。它们就像黑箱,其内部运作是神秘的。」
「黑箱」问题是深度学习所特有的。该系统不受大量而明确的医学知识和一系列诊断规则的引导;通过进行大量的内部调整——类似于加强和减弱大脑中的突触连接——它已经能够有效地教自己去区别痣与黑色素瘤。它究竟是如何将某一病变确定为黑色素瘤的呢?我们无法知道,它也无法告诉我们。所有允许网络去学习的内部调整和处理都发生在我们的审查能力之外。就像我们自己的大脑一样。当你骑自行车慢慢转弯时,你会向相反的方向倾斜。我的女儿知道自己是这样做的,但这并不是她自己的选择。该黑色素瘤机器必须从图像中提取某些特征;如果它不能告诉我们所选的是哪一个特征,这会有什么影响吗?这就像是微笑着的知识之神。遇到这样一台机器,你可以窥见动物感知人类心灵的可能方式:无所不知但却难以理解。
Thrun轻快地设想了这样一个世界——我们时刻处于诊断的监控之中。我们的手机将分析如何把语音模式转化为老年痴呆症的诊断。一个方向盘会通过你小幅度的踌躇和震颤来检测出早期的帕金森氏症。当你在洗澡时,一个浴缸将通过无害的超声波或磁共振来执行顺序扫描,以确定卵巢中是否出现了新的需要调查的紊乱。大数据将会观看、记录和评估你:我们将从一个攫取的算法中穿梭到下一个。进入Thrun的这个浴缸和方向盘的世界就是进入了一个诊断镜大厅,每面镜子都敦促着更多的测试。
很难不被这种愿景所诱惑。一个每天都在做图像对照、不断以细节————甚至可能是细胞——颗粒的方式对我们进行扫描的医疗监狱,可能会使我们在癌症的最早期诊断出它吗?它能提供癌症检测方面的什么突破吗?这听起来令人印象深刻,但其中有一个陷阱:许多癌症都注定是因人而异的。我们是和它们一起死去,而不是因它们死去。如果这样一个身临其境的诊断引擎将导致数以百万计的不必要的活检呢?在医学上,早期诊断可以挽救或延长生命。但也有一些情况是,你会担心更长的时间,但不会活得更久。很难知道你想知道多少。
「我对于增强人类能力方面很感兴趣,」当我问他这种系统对人体诊断的影响时,Thrun这样说到。「看,工业耕作消除了某种形式的耕作吗?当然,不过它也扩大了我们生产农产品的能力。并非所有这些都是好的,但它使我们能够养活更多的人。工业革命增强了人类肌肉的力量。当你使用电话时,你增强了人类语言的力量。在纽约的你无法令加利福尼亚的人听到你的喊叫」——的确,当时Thrun和我的通话距离就是这么长——「但你手上的这个矩形设备可以让人声传递到3英里之外。电话取代了人声吗?没有,电话是增强设备。认知革命将允许计算机以同样的方式增强人类的思维能力。就像机器使人类肌肉增强了倍一样,机器也将令人类的大脑性能增强倍。」Thrun坚持认为,这些深度学习设备不会取代皮肤病医生和放射科医生。它们将加强专业人士的能力,为他们提供专业知识和援助。
四
GeoffreyHinton是多伦多大学的计算机科学家,他认为学习机器将在临床医学中发挥出更大的作用。Hinton——乔治·布尔的玄孙,其布尔代数是数字计算的一个基本原理——有时被称为深度学习之父;这是他从19世纪70年代中期以来就开始研究的一个主题,他的许多学生如今已成为该领域的主要设计者。
「我认为,如果你是一名放射科医生,那么你就像是漫画中的WileE.Coyote(译注:先拼命地往悬崖外跑,离了很远之后才发现自己已经踏空。),」Hinton告诉我。「你已经越过了悬崖的边缘,但是还没有朝悬崖下看去。下面并没有地面。」用于乳房和心脏成像的深度学习系统已被商业化开发出来了。「这完全是显而易见的,深度学习将在5年内胜过放射科医师,」他继续说道。「可能是10年。医院里说过这个。但是这一点并没有获得广泛的接受。」
Hinton医院的原话很直率:「他们现在应该停止训练放射科医生了。」当我向AngelaLignelliDipple提出这个挑战时她指出,诊断医师并非仅仅是在做yes-no式的分类工作。他们不仅仅是在定位导致中风的栓塞。他们是在