自从AlphaFold横空出世,神经网络就在不断吸引生物学家的目光。不可否认,至少在结构解析的领域,这类方法已经依靠其无与伦比的生产力产生了深刻的影响,而这种影响正快速辐射到其他领域中:基于LLM的蛋白质分析工具、序列分析产品层出不穷;图神经网络则可以用于分析从各类生物系统中提取出的抽象图;各类组学、高通量数据分析也在积极整合各类神经网络;等等。然而,这些喷涌出的AI4Science工具直接导向了一个严肃的问题:它们到底在多大程度上帮助人类理解了生物系统本身?又在多大程度上缓解了人因无法理解系统而产生的焦虑?
“理解生物系统”是一个艰巨的课题。生物学研究最重要的两个目标就是理解生物系统以及医学应用。长久以来无数的定性实验在医学应用上取得了巨大的成功,相对而言,在理解生物系统上的进展还极大程度上停留在积累细节的阶段。这种对比不仅源于传统生物学研究视角侧重于医学应用,还源于定性方法内在的对研究系统动力学的缺陷。换言之,仅仅依靠积累分子细节、解出互作网络本身是无法理解动态的生物系统背后的逻辑的。这种逻辑并不是狭义的网络逻辑(类比于电路逻辑),而是针对特定网络结构、在特定条件下的动力学的分析。只有这类分析能够帮助我们理解当下获得的静态的网络与生物系统的行为之间的关联,但无论是出于技术的限制,还是出于医学应用的视角,这类分析始终没有得到足够的重视。从这个角度来说,生物学带给医学的成功并不能说明人们理解了某个生物系统具体的运行逻辑,而往往只能得出如下结论:在生物学给出的定性的静态网络模型下,某个靶点在经过临床实验验证后取得了有效的成果。靶点与效果之间的对应关系是一个灰箱,因为这个系统的动力学性质还未被掌握。有时一些药的效果远超预期,而另一些则差强人意,或许正是由于对动力学性质分析的忽视。
从原理上来说,当下的AI4science能在多大程度上帮助人类理解生命系统,实际是一个值得探讨的话题。神经网络的舒适区是在大量数据输入的基础上,“学习”数据内部隐含的关系,最后根据这些“隐含的关系”输出相应的结果。这些“关系”被保存在模型内部的参数中,很难被人类直观地理解,顶多只能通过一些扰动手段间接地理解参数的含义。细想来,这种可解释性的研究本质上和生物研究别无二致。基于这些特性,神经网络当然和“组学数据”、“高通量数据”、“数据挖掘”这些字眼密切相关,更需要这些数据需要有足够的信息和良好的质量。且不谈在实际研究过程中这些数据是否受到了良好的处理(包括数据清洗等),单论数据的性质而言,能否体现出系统的动力学信息呢?
答案或许是否定的。在空间上收集大量的异质性数据的难度要远低于在时间上做这些操作的难度;换言之,空间分辨率的提升要易于时间分辨率的提升。这是生命体本身的性质决定的。虽然空间相关组学的研究困难重重,但是始终有杰出的结果不断推动这些领域的进展,尤其是空间代谢组学、空间转录组学等领域一直是研究的热门,这是因为我们已然拥有各种单细胞的技术,使得我们能够在100微米的尺度上得到可靠的结果。当然,亚细胞的组学始终是一个更困难的问题,现在能做到的基本只有邻近标记辅以质谱的方式,但是数据的可靠性还有待提升。可是对于时间序列就没有这么简单了。要获得高质量的时间序列组学数据,我们不仅没有足够可靠的时间对齐方法,而且有意义的时间序列数据往往需要达到亚细胞的层次、分钟级甚至秒级的量级——细胞的代谢网络节点上的浓度波动、mRNA的浓度变化……当时空精度达到这些量级的时候,生命体自带的噪声,加上数据获取过程中的各类人为因素 ,包括实验处理的手法、试剂厂商的选用等等系统误差会被放大到无法被忽视、也很难被平均的程度。那么,神经网络在面对这些粗糙的、杂乱的数据时,究竟学到什么了呢?它学到了系统真实的动力学信息,还是实验测量中的各种误差呢?我们不得而知。
实际上,事情有时候或许比我们想象的要简单一些。对于一些核心的网络和通路,通过传统的物理学方法可以得到非常solid的结果,这些结果往往揭示了在哪些最小的给定条件下,系统就足以展现出某些特定的行为;或展示了还需要哪些条件(这些条件往往在实验中难以验证,因而是一种假设),系统才能展现出某些特定的行为。这些结果和假设并不一定正确,但是可以告诉我们在现有的系统中还缺少哪些至关重要的因素,同时还赋予我们提出疑问的方向。这些因素的发掘本身就是我们不断理解生物系统的过程——我们面对复杂的客观世界,总是要借助于建立一个可以理解的模型,这个模型可以说“正确”或“不正确”,或者说“好”与“不好”,但是如果没有模型,一切就无从谈起。这就是韦斯科夫所说的故事:“模型就是 奥地利的火车时刻表,奥地利的火车经常晚点,有人问列车员‘你们干嘛还要时刻表呢?’列车员回答道‘有了时刻表才知道火车的晚点啊。’”
神经网络的手段又是如何呢?它吞下大量的数据,吐出一些结果,即使假设这个过程并不是garbage in, garbage out, 谁也不能精细、清楚地知道里面发生了什么,或是从中获得有效的直觉——如果能够清楚地理解神经网络这个复杂系统的细节,从研究手段的性质而言,我们应该也能够获得并理解生物系统的细节,又何须借助神经网络的媒介呢?诚然神经网络已然在工程上取得了优异的成果,我们不妨承认神经网络自己已经理解了某些人类未知的生物系统的运行逻辑和结构,那么人类呢?我们自己从神经网络的吞吐过程中学到了什么?答案或许是“一无所知”。
实际上,这就是一种对生物科学的背叛。神经网络相较人类拥有巨大的存储和内存,这赋予了它无比强大的直觉,强大到无需依赖任何人类的知识架构。人们已然通过实践证明,给模型的loss function人为施加一些物理的约束反而会让神经网络的表现下降 。这意味着大模型不需要、也必定不学习人类所具备的知识体系——一个适配极其有限的存储和极小内存的生物体的体系。对于神经网络的工程和探测,本质上都是在触摸一个极其陌生、抽象的知识体系,人类要如何从这类陌生的体系中抽离出对目前已然是庞然大物的自然知识体系有益的知识呢?即使不是完全不可能,也必然是十分困难的,我想甚至困难于直接探索生物系统本身。
面对神经网络,人类产生了太多的幻想和兴奋。AlphaFold无与伦比的表现让我们误以为已经理解了蛋白质序列-折叠-功能的生物学逻辑。这是错误的。我们实际上还是一无所知,只不过现在有了一个莫名其妙的工具而已。直到我们能够给出最小的能够通过序列给出功能的蛋白质设计原理集合,我们才能够宣称理解了蛋白质折叠的逻辑。现在我们有什么?能量最小化罢了——这就是我们粗浅的不求甚解。