“与第一代和第二代相区别,第三代AI系统不以大数据为驱动,也不以知识为驱动,而是兼具知识和大数据两种驱动,这让它获得了新的生命力。”潘毅中国科学院深圳理工大学(筹)计算机科学与控制工程学院院长大家好,我是潘毅,今天我要分享的主题是《当AI遇见生物健康大数据》。
Part.1
生物医学迎来大数据时代目前生物医学已经进入大数据时代,如何处理和挖掘每天产生的大量数据,既是今后的研究方向之一,也是对大众有益的一项活动。通常人们所认为的大数据和实际的大数据并不完全相同。大家可能认为大数据就是数据的量非常大,但实际上这个“大”还包括了很多其他的因素。除了数据量大以外,大数据的存储和处理比较复杂。而最重要的问题是,我们该如何挖掘大数据,获得一定量的知识,使其为我们所用。我们现在所讲的大数据,已经达到了PB的数量级,也就是十的十几次方。这么大的数据量,我们应该怎么去处理?医疗大数据有一些自身特性。不仅数量大,我们可以挖掘出很多知识。医疗大数据还具有异构性,即数据结构多样。数据的异构性是很重要的问题,我们今天接触到的录像、成像、声音、文字等等都是异构的。另外,医疗大数据增长快速,医院里都会产生很多数据。所以,如何去处理大量数据的架构的价值很大。我举个例子,我有个学生在上海开了家公司,这个公司最近获得了万美元的融资来开发数据异构的架构这个软件,目前的进展非常好。另外,医疗大数据在医疗领域还有很多特性,包括多态性、不完整性、时序性和冗杂性。多态性是指医疗大数据包含纯数据、信号、图像、文字以及动画、语音、视频等多模态数据。不完整性是指医生掌握的数据往往是不完整的。持续性是指患者就诊、疾病的病程以及疾病的检查要按照次序进行。比如医生连续三天给病人测了体温,不能颠倒次序,一定要按照次序进行诊断才能预测疾病。冗杂性是指每天会不断产生无数的就诊数据,肯定会存在无关紧要、甚至相互矛盾的信息。比如医生对病人进行测量后记录了数据,可能护士又记录了一次,这些情况都有可能发生。所以标准化成了一个问题,实现医疗大数据的标准化具有一定的挑战性。
Part.2
人工智能助力生物医学大数据研究那么,人工智能如何助力生物医学大数据研究呢?实际上,人工智能已经在医学界获得了广泛应用,包括疾病的预测、治疗、诊断和进行精准医疗等。医疗大数据应用广泛我们已经在医疗大数据中广泛应用了人工智能。有很多成功典范,例如疾病诊断、生物制药、筛选药物等等。但是,在这其中还存在很多的挑战和问题。我们今天把AI叫做人工智能,大家可能会认为人工智能是个了不起的东西,但我想告诉大家“人工智能无智能”。这个话说出来不太好听,但实际上正是如此。当初美国产生了ArtificialIntelligence(人工智能),我们把Artificial翻译得好听点叫做人工智能,但也可以翻译为假的或者人造的。如果将Artificial翻译成假的,那么ArtificialIntelligence就是假智能,其实就是无智能。
Part.3
人工智能其实很“笨”但我认为无智能有一定道理,无智能并不代表没用。为什么呢?因为现在有很多人工智能应用确实很有用。我先给大家讲一下第一代的AI系统。它是一种简单的指令式,利用知识驱动。比如用专家系统诊断疾病,如果你的舌苔是黄的或者是体温偏高,中医会说你可能是感冒了。这是一种机理,用一种很简单的逻辑来表达问题。第二代AI系统也称为数据驱动,利用深度学习找到数据背后的函数具有理论的保证。典型的第二代系统就是黑盒子,它很脆弱。第二代AI系统既有优点,也有缺点。优点在于它能够发现人类没有发现的一些智慧知识,这就是它好的一面。举个例子,我的孩子在两岁的时候,有一天她在地上爬,看见了一只蜜蜂。她就伸手去抓蜜蜂,结果手被蜜蜂蛰了一下变得红肿,起了个大泡,她感觉到很痛。从那之后,她看到蜜蜂就会害怕,这就是一个学习的过程。AI也具有同样的学习过程。最典型的一个工作是谷歌做的一件事,他们把一万张、甚至一亿张猫、狗的图像放进AI系统。经过学习后,AI系统能够分辨出你展示的东西是猫还是狗,准确率高达90%以上。这就是大数据的驱动,它可以在学习中抓住猫和狗的特征。那么,第三代AI系统能否结合知识与数据?正如我刚才分享的我女儿的故事,假如在她接触蜜蜂之前,我每天教她这个虫不能碰,教给她知识。她学得很快,也许第一次见到蜜蜂,她就不会碰了。今天我要讲的,就是如何把知识放进AI系统。也许放一些逻辑和知识,它就能学得更快一点,加快它的学习进程。否则它是在盲目地学,可能学一千次才能学会。为什么深度学习这么有效?主要来自于三方面:算法的改进,大量数据的产生,以及算力的发展。我们都知道,几年前AlphaGo打败了韩国围棋高手李世石,大家觉得这很了不得。为什么呢?因为人类这么高的智慧都被机器打败了,好像是了不得的事情。那我要说一个反话,我觉得没有什么了不得。这不是一个大事情,只是一个小事情。如果你认为这件事了不得的话,那我认为40年前就有一个计算器把人类打败了。比如用当初的计算器计算除以,很快就可得出答案,而几乎没有人能在一秒钟内算出来,这就表示计算机打败了人类。但是这并不意味着人工智能可以真的打败人类,只是因为数据驱动的作用。ShouZhuo的工作原理我们在AlphaGo的基础上设计了一个软件,叫做ShouZhuo。它可以打败AlphaGo,我的一个硕士生用了半年时间就打败了AlphaGo。大家可能会质疑,你们难道这么聪明吗,连耗费了大量人力、物力的AlphaGo都打败了?谦虚地说,我们是站在巨人的肩膀上,按照它的思路,在基础上改进了一点点。我们的成果肯定不如它,如果没有它也就没有我们。但是,当我们打败AlphaGo,明白这个棋的原理以后,我们发现ShouZhuo里面是无智能的。实际上这很简单,它把年来最好的棋都收集起来,没有收集臭棋,臭棋放进去就没意思了。在这之后,我们在下棋时,它会自动与年间的棋盘比较,找到一个最有可能打败对方的结构再下棋,所以这里面其实没有什么智能。唯一的区别在于,人类的大脑不可能记清年来所有的棋。即使我们能记忆,也不可能在一秒钟以内提取信息,找到最合适的应对方式。我们人类大脑的处理能力和储存能力较差,AI只是在这些方面略胜一筹,其实没有多少智慧。正如我刚才谈到的,第三代AI系统要把第一代、第二代融合起来。第一代AI系统有逻辑和知识。比如第一代AI系统在判断一个人的性别时,如果这个人的头发比较长,或者脸比较白、说话比较轻柔、语调比较高,它会认为这个人是女性,具有女性特征。第二代AI系统与第一代不同。比如一个空间里有一万个人,它可以通过训练,识别特征,最终分辨出人的性别。我们现在的目标是将数据和知识进行深度融合,构建第三代AI系统。在数据上,要有归纳能力,能够举十反一。在举了十个长头发女性的例子后,它就能记住长头发可能大多是女性。在知识上,要有逻辑推理能力,能够举一反三。例如舌苔黄了往往意味着会出现病症,血压高可能代表患有病症。
Part.4
如何在人工智能中嵌入知识?接下来我们做了一些尝试。如何在AI系统中加入先验知识呢?前面我举了谷歌的例子,他们把上亿张猫、狗的图像录入系统,通过训练,它能预测出我们随机展示的图像是猫还是狗。那么,我们能否把关于猫狗的知识录入系统呢?猫和狗有一个比较明显的区分特征:狗的耳朵往往大一点,猫的鼻子小一点。我们把这个知识嵌入到AI系统,就可以减少一点学习时间,提高一点准确率。这就是我们今后要做的工作。如果把深度学习比做一个黑盒子,能否在里面加入逻辑来推理猫和狗的特征?这样做起来就比较复杂了。猫、狗具有不同的特征首先,我们要对图像进行处理,然后要区别耳朵、鼻子的大小和位置。猫、狗的耳朵和鼻子的大小都是相对的。比如,如果猫的图像大,也许它鼻子的尺寸看起来也会比实际大很多。所以我们要确定一个相对标准,来解决如何确定猫的鼻子小、狗的耳朵大的复杂问题。我们做了一些先验数据的嵌入工作,我们将下面的两组图像进行对比。第一组:无监督分割第一组图像是无监督分割,不给AI任何知识,让它预测左边这个图像里面有什么东西。我们可以看到AI分割得很差,什么都看不清,只有白和黑。第二组:半监督分割第二组是半监督分割,我告诉它一些知识,再让它进行分割。我告诉它我们的脸是黄色,云是白色,天空是蓝色,再告诉它树的形态一般是青葱的绿树。我们可以看到最终呈现出了清晰的人形。这说明即使AI在很笨的情况下,如果给了它一些知识,它就可以学得很快。那我们通过什么方式教给它知识呢?我们叫作interactive,也就是交互式的,一边它自己做预测,一边我们给它指导。通过人机交互能否多给它一些知识,使它学得更快呢?我们又做了一个实验。现在有0到9共10个数字,这个0不是标准的印刷体,是手写的。假如AI系统经过我们的设计以后,它也能做deepnetwork,即深度学习,可以预测数字。但是这里面有一个问题,AI系统会盲目地学习,导致准确率不高。我在想能不能先嵌入一些知识给人工智能学习,让它学得快一点,从而实现目标。大家知道数字0、6、9都有个圆圈,也就是有圆圈的数字只有0、6、9,这就是知识。假如AI系统检测到数字有一个竖的笔划,就可以判断这可能是1或者4,勉强也可以说是7或是9。那么把这些知识放进系统以后,我们做了实验,发现准确率确实提高了2%到3%。所以我们觉得这是一个非常好的研究方向。
Part.5
将多种类型的数据融合到一起接下来我讲一下多模态的数据融合,当今我们的数据都是多模态的。神经网络就是将诸多数据融合后产生一个结果,这就是我们要做的工作。比如今天我要辨别一个人,我可以通过嗅觉、触觉、视觉、味觉和听觉。我问大家,你们觉得什么样的女性是美女?每个人可能有不同的答案,其实美女的划分有多种评价标准。在日常生活中,我们见到有些女性长得很漂亮,但是一开口可能粗话连篇,我们也就不觉得她美了。同时,嗅觉和触觉也很重要,比如闻起来很香或者皮肤很细嫩。另外,我们认为的好吃的菜一定是色香味俱全的。举个例子,在今天自闭症的预测是一个很重要的课题。为什么这个课题很重要?因为现在小孩患有自闭症的概率,在美国已经达到了大概五十分之一,每50个孩子出生,就有1个患有自闭症。如果在4岁以前就能预测孩子是否患有自闭症,我们还可以进行人工干预、药物治疗,也可以通过关怀把自闭症孩子培养成一个比较健康的人。自闭症小孩的家长很痛苦,但是他们不知道如何进行早期诊断。当孩子3岁还不会说话时,家长也不能确定孩子是否患有自闭症。自闭症预测流程图我们应该怎么做呢?早期诊断分为三部曲,第一是行为,第二是基因,第三是MRI,即磁共振图像。行为学比较简单。我希望我们在两年之内开发一个手机软件,家长能够通过上传视频来识别孩子是否患有自闭症。现在我们已经有经费支持,正在着手进行APP研发工作。家长可以在家里录一段视频上传至APP中,它就可以根据录像来判别这个孩子有没有可能患有自闭症。因为患有自闭症的孩子往往有些特征。比如你问有的孩子:“你的名字叫什么?你今年几岁了?”他会很高兴地立刻回答你。但自闭症儿童有可能会不理你,表情很沉默等等,这些都是从行为学的角度来考虑。现在也可以根据基因学判断孩子是否患有自闭症。我们通过抽血检验基因,基因里有biomark,即生物标记。这个生物标记标志着孩子是否有自闭症的倾向,这也是一种可能性。另外,目前我们还可以通过MRI来诊断脑图像里是否有MRI的特征。我们可以利用行为学、基因学和MRI影像学三管齐下进行协同工作。实际上自闭症的预测还有好几个领域,不止是三管,每一管还可以细分。举个例子,行为学里面可以分为人的表情、动作、语音和发音的程度等等。通过融合大数据,我们可以得出结论。在实际操作中,做融合大数据存在一个困难,就是数据必须从同一人群中产生。比如,我们用行为学和基因学各测试了个儿童,包括个正常的儿童和个非正常的儿童。这其中存在一个前提条件,行为学和基因学测试的儿童必须是同一群儿童,不同的人就不能融合。但是这件事做起来是很困难的,不是每位家长都愿意参与到这个过程中。基于人工智能的自闭症早期逐级筛查今后如果我们想要预测自闭症,可以按照我接下来讲的步骤进行。首先是行为预测,我们下载一个手机软件就可以在家里做。如果觉得自己孩子的行为有点怪,可以用软件进行检测。如果可能性有65%或者更高,医院去做基因检测。如果基因检测的结果显示可能性很大,再用影像学来预测。我们希望做完三部曲,最后的预测准确率能够达到90%以上。预测准确率是相互补助的,比如行为学的准确率能达到80%,遗传学达到85%,影像学达到89%,这三个融合起来准确率就有可能达到90%,这就是融合的好处。所谓融合就是1+1的效果要大于2,这才能叫巧妙融合,其中需要很多的技巧。癫痫疾病预测我们对癫痫也做了预测。第一步利用医生的诊断报告里面的特征。医生告诉我们这个脑图像里有一个黑圈,这个黑圈可能有多大了。第二步用MRI图像。第三步用FunctionalMRI,即功能性磁共振的图像。我们在不同的时间做这些,最后发现癫痫预测的准确率达到90%以上,甚至比医生的准确率还高。即使如此,我们也不能使用太多次,因为这还没有达到法律上的效率。大家不能理解机器会犯错误,以后还需要法律的规范。
Part.6
从“黑盒子”中获取规则与信息最后我讲一下结果解释。什么叫结果解释?今天我让一个黑盒子预测了图像是猫还是狗,我往往想知道它为什么预测图像是猫。我们从AI得到了规则,规则又可以得到很多信息。举个例子,大家认为什么是制药?生物学家在新冠病毒中发现了S蛋白质,实际上制药就是找到一个大分子,使得大分子与S蛋白质紧密相连,最后杀死新冠病毒。但是找到这个与它匹配并黏合的结构很不容易,所以我们如何通过做基因工程找到这个东西,反向就很重要了。给出一条线找到曲面很容易,这是预测教育。但是,给出一种形状,要设计一个能产生这种形状的基因是不容易的。在基于AI预测的时候,知道线是如何达到这个结构也很重要。这可以减少生物实验次数,避免重复的劳动。在一个蛋白质里面,每个氨基酸有20种可能性。假如每个都要做实验,做3个位置的话就要做次,5个位置就要做次。实验次数太多了,可能几年都做不完。如果用AI来预测可能性,预测A到B是没关系的,A到C也是没关系的,我们就可以少做实验。所以解释如何得到结果很重要,我们现在做的实验就是怎么去解释,我们也叫做逆向工程。就是给我一个结构功能,可以是蛋白质,我们怎么找到一个分子使得它能与这个蛋白质很好地黏合,黏合以后就可以杀死它。实际上计算机辅助制药就是,计算机先对给出的一万种药进行筛选,筛选出几十种有一定概率与特定结构黏合的药。然后再用生物来做实验,检验结果是否相同。最近,我的同事给我了一个癌症细胞的蛋白质,叫做TIPE2蛋白。据说这是可以杀死癌症的,于是我们根据这个蛋白的框架在三万种药里面进行筛选,筛选出比较相近的、能克服它的药物,最后找到了一百多种。我们只试了前四种,就发现有一个分子与TIPE2蛋白的紧密度是10-6,这意味着紧密度很高。下一步我们就要在生物上做实验,成功之后,再在动物上做实验。接下来再做分阶段实验,阶段一是少量的人做实验,阶段二是大量的人做实验,阶段三是大家集体做实验,医院去试用。如果第三阶段的实验成功,产生的副作用很小,也能杀死癌细胞,就可以进行制药。大家可以看到,在制药的前期比较过程中,计算机产生了极大的效应。它先把几千种可能性剔除掉,只剩下几种需要实验,解决了很多问题,使制药厂更加节省经费。为了应对新冠病毒,我们研制了许多疫苗,这都得益于计算机的辅助数据。AI在生物领域对于生物医疗有很大的应用。因为大数据,AI给我们带来了很多的便利、功能和好处,但我们不要迷信AI。我们今后的研究方向就是把知识嵌入到大数据。与第一代和第二代相区别,第三代AI系统不以大数据为驱动,也不以知识为驱动,而是兼具知识和大数据两种驱动,这让它获得了新的生命力。我的分享到此结束,谢谢大家!来源:格致论道讲坛本文已获转载授权,如需转载请联系原作者文章仅代表作者观点,不代表中国科普博览立场转载注明出处未经授权不得转载转载授权、合作、投稿事宜,联系webmasterkepu.net.cn中国科普博览是中科院科普云平台,由中科院计算机网络信息中心主办,依托中科院高端科学资源,致力于传播前沿科学知识,提供趣味科教服务。点这里告诉我你在看预览时标签不可点收录于话题#个上一篇下一篇