-
潘禺:在这迷人又壮美的科学领域,“中国玩家”能奋起直追吗?
最后更新: 2024-10-10 08:34:47为了搞清楚这些问题,至少必须先用实验确定蛋白质的结构。科学家将蛋白质培育成晶体,用X射线轰击它们,并测量射线的弯曲,这就是X射线晶体学。20世纪60年代,生物学家马克斯·佩鲁茨和约翰·肯德鲁用这种方法确定了血红蛋白和肌红蛋白的3D结构,又一项获得诺贝尔奖的工作产生了。
随着更多蛋白质结构被发现,科学家们在1971年建立了蛋白质结构的免费档案库——蛋白质数据银行。最初,只包含了七种蛋白质的结构。近50年后,谷歌DeepMind使用它来训练AlphaFold时,已经包含了超过140000种。
因为方法的繁琐,为蛋白质银行添砖加瓦的过程,曾经是非常艰难痛苦的。科学家们先要创建蛋白质电子密度图,在电子聚集的区域可能包含一个原子。将电子密度图打印到塑料片上,一个个堆叠起来,就创建了蛋白质地理的“等高线图”。然后,科学家们要将地图转换为物理模型,将塑料地图放入理查兹盒中,这个设备以发明者牛津大学生物物理学家理查兹的名字命名,在理查兹盒内,一定角度的镜子将地图反射到工作区,使科学家能准确看到每个原子的相对位置。然后,科学家们就用球和棍子物理构建他们的模型。
为了研究并模拟磷酸化酶,科学家不得不爬上梯子进入一个特别建造的、有两层楼高的理查兹盒中。这种蛋白质拥有842个氨基酸,是当时人们研究过的最大的蛋白质。由于进展的煎熬和缓慢,蛋白质银行成立的20年后,有信心确定而被提交的蛋白质结构也不过七百多种。
实验主义与计算主义
主张计算方法的科学家,已经厌倦了实验派的做法,他们希望另辟蹊径。
正如安芬森的教条,蛋白质的结构应该能从其氨基酸序列中预测出来。计算生物学家编写计算机算法,希望可以给程序输入一串氨基酸,生成正确的蛋白质结构。对计算方法来说,蛋白质的三维结构预测问题,可以看成这样一个问题,输入是一个字符串,输出是每个字符(残基)对应的三个扭转角ϕ、ψ和ω,看起来简洁漂亮。注意,这看起来和AI处理的一些经典问题,如序列标注、机器翻译等问题很像。
计算派的做法是在虚拟世界构建自己的模型,设计自己的算法,比如假定原子以某种方式粘在一起,蛋白质总是这样向右或向左折叠,但这些模型逐渐远离现实。
实验主义者工作精确但速度慢;计算主义者工作迅速,但与生物物理现实脱节,常常出错。两种方法的优点,必须结合起来。实验派和计算派的科学家,必须牵手合作。
物理学家普朗克有过一句名言:“一个新的科学真理的成功,并不是因为它征服了那些反对者并使他们顿悟,它的成功是因为它的那些反对者最终逝去,而心向新理论的新生代最终成长起来。”
普朗克说的应该是科学理论,是有哲学高度的理论解释。或许正因为理论还难以建立,在蛋白质生物学的发展历程中,我们看到的并不是这样残酷的规律,而是反对派之间的合作共进。在20世纪90年代,科学家们组成了社区,实验主义者提供最新的蛋白质氨基酸序列清单,计算主义者则尽其所能,用他们想要的任何方法来预测蛋白质的结构。一个独立的科学家小组,通过将计算派的模型与实验确认的结构进行比较,来评估模型。
这个名为CASP的社区,成了解决蛋白质折叠问题各种计算方法的试验场,最后实际上已经变成了一场竞赛。在美国加州的一座老教堂里,计算主义者可以在会议中谈论他们的方法,组织者鼓励与会者,如果不喜欢他们听到的内容就在木地板上跺脚。据一位生物学家回忆:“一开始,有很多跺脚,几乎就像打鼓一样。”
一些方法的表现比预期好,比如“同源建模”,比较已知蛋白质的结构来推断未知蛋白质的结构。其他的则完全没有用。在1998年的比赛中,大卫·贝克用他的算法罗塞塔(Rosetta)大放异彩,罗塞塔算法模拟了氨基酸分子间原子的相互作用,以预测它们将如何折叠。尽管还不够准确,无法实用,但人们看到了计算预测蛋白质结构的曙光。
2008年,贝克创建了一个名为Foldit的免费在线电脑游戏,也就是本文开头所说的那个游戏。在当时,人类玩家模拟蛋白质超过了罗塞塔,但人类的领先优势不会持续太久。
如果两个氨基酸一起突变,它们可能有某种联系,可能在空间上很接近,这一概念被称为共同进化。在清除了统计方法引入的错误后,科学家提高了对哪些氨基酸共同进化的预测准确度,基于此,罗塞塔算法能更准确预测蛋白质结构,这可能是深度学习之前推动该领域进步的最大里程碑之一。但共同进化需要大量相似的蛋白质进行比较,而实验主义者解析蛋白质结构的速度不足以满足计算主义者的需求。
新玩家上场
2016年,谷歌DeepMind的人工智能团队以深度学习算法在围棋中击败了人类冠军,轰动了世界。
深度学习本身就是计算机科学受到生物学启发的范例。在大脑皮层中,分子信息被发送到神经元相互连接的网络中。神经元有叫作突触的小臂,它们抓住邻近神经元发出的分子,这些分子告诉接收神经元要么发射并传播信号,要么不发射。
将电子位连接起来创建“神经网络”的想法,早在20世纪50年代就已经在计算机科学中产生。神经网络中的每个单元是一个节点,可以比作神经元:一个神经元从其他神经元接收信息,然后计算是否向接下来的神经元发射。在神经网络中,信息在多层神经元中传播,以产生特定的结果,比如图像识别。神经元层数越多,可以执行的计算就越复杂。
这一灵感正是来自大脑。神经科学发现,我们的大脑会通过逐步抽象的方式来分析眼睛所看到的事物。在AI应用中,输入数据的传感器可以是镜头、麦克风或者其他测量仪器。而我们人类眼睛中的传感器又被称为视锥细胞和视杆细胞,它们会探测那些令其进入激发状态的光线,得到光线的亮度和颜色。这相当于计算机图像中每一个像素的亮度和颜色。人类的第二层神经元会连接着眼睛的视锥细胞和视杆细胞,一般会衡量相邻像素之间的相关度,根据上一层神经元的激活情况来计算。下一层神经元可以在眼睛看到的图像中找出明显的线条,再下一层,会将线条结合起来,得知图像中的基本对象,比如绵羊的耳朵。再之后的层次,继而将这些基本对象结合起来,确定更深层次的结构,比如图像中是否存在绵羊。
2010年代初,计算机科学家已经能更好构建神经网络,允许更多层的可靠训练。网络深度从之前的两三层,跃升到数千层。为了区分过去浅层的做法,人们开始用“深度学习”这个更时髦的名字来称呼。深度学习改变了人工智能,算法不仅在图像和声音的识别上表现出色,在围棋这样的游戏中也能击败人类。近年来,基于深度学习的自然语言处理模型GPT,则在文本生成上又一次震撼了世界。
这里多说几句题外话,当前的人工智能革命,还与一种概率论思想——贝叶斯方法(Bayesian methods)有关。贝叶斯方法的核心思想是根据观测数据更新先验概率,得到后验概率分布。贝叶斯方法将不确定性视为概率分布,能够量化模型的不确定性。在深度学习中,许多问题涉及到对不确定性的建模,例如参数估计、预测的置信度等。用贝叶斯方法,能够更加灵活地处理这些问题。
一些科学家甚至相信,我们的大脑就是一个能对贝叶斯公式进行各种各样近似计算的计算器,也就是贝叶斯大脑,贝叶斯公式很可能在人类认知中处于核心位置。贝叶斯主义者的信念也深刻影响了当前人工智能的发展。总之,“生物学太重要了,不能只留给生物学家”,为了努力理解不同的蛋白质如何折叠,人们不仅要研究生物,还要研究数学、物理、化学、统计学、计算机科学……
百图生科首席AI科学家宋乐在谈到其大模型时就说过:“不单单需要AI人才,也有工程人才的参与,此外还需要一些很了解生物知识、对生物数据分析很有经验的人才。这种团队的内部合作不容易,但如果成功也会收效颇丰。”
随着谷歌DeepMind进入蛋白质结构预测领域,受生物学启发的深度学习,现在要来解决生物学中的难题了。
AlphaFold的小小震撼
DeepMind的这个项目称为AlphaFold,来自统计学、结构生物学、计算化学、软件工程等领域的专家,在DeepMind共同研究蛋白质折叠问题。在学术界,专家们通常相互隔离,各自独立进行项目,很少有这样的合作,更没有谷歌庞大的财务和计算资源支持。2017年,蛋白质数据银行已经拥有超过140000种结构,DeepMind团队用这些数据训练他们的算法。
其领导者约翰·贾姆珀(John Jumper)正是在物理、化学、生物学和计算机方面有着多样化的背景。贾姆珀从小自学了编程,本科学习数学和物理,先攻读凝聚态物理学博士,后来退学在纽约的一家公司用超级计算机从事蛋白质的模拟,通过理解蛋白质的运动和变化,希望更好地理解各种疾病,如肺癌的机制。此后又在芝加哥大学学习理论化学,完成了博士学位。
约翰·贾姆珀(John Jumper)
2018年春天,AlphaFold已经准备好参加CASP,人工智能要与真正的蛋白质科学家竞争了。CASP组织者最终带来的消息是,AlphaFold表现得非常好,在预测蛋白质结构方面,比第二名的团队好大约2.5倍。但这离解决蛋白质折叠问题还很远。
标签 心智观察所- 原标题:在这迷人又壮美的科学领域,“中国玩家”能奋起直追吗? 本文仅代表作者个人观点。
- 责任编辑: 袁以衡 
-
我国科技成果转化问题到了必须要解决的地步
2024-10-08 16:58 心智观察所 -
2024年诺贝尔生理学或医学奖揭晓
2024-10-07 17:45 诺贝尔奖 -
跨越7公里!我科学家研究分布式光量子计算获重要进展
2024-10-07 10:00 科技前沿 -
潘建伟:明年计划发射2-3颗低轨卫星,10年内建成量子星座
2024-10-04 09:43 科技前沿 -
国际首次!我国科研团队完成超导太赫兹通信实验
2024-10-03 19:57 科技前沿 -
突破!我科研人员在高温超导研究领域取得新进展
2024-10-03 10:23 科技前沿 -
打破国外垄断!全球最大,成功下线
2024-09-30 11:26 中国精造 -
新突破!自主可控,首试成功
2024-09-27 20:41 科技前沿 -
2024全球创新指数发布:中国居第11
2024-09-27 07:11 -
重要突破!我国科研人员发现能强效抑制艾滋病病毒的纳米抗体
2024-09-26 08:06 科技前沿 -
全球首座!我国海上稠油热采关键技术取得重大突破
2024-09-25 08:34 能源战略 -
一箭五星!力箭一号遥四商业运载火箭发射成功
2024-09-25 08:04 航空航天 -
“蛟龙号”首次搭载外籍科学家进行下潜作业
2024-09-25 07:41 科技前沿 -
中国将在月球上建无线网
2024-09-24 19:44 嫦娥奔月 -
为了美国的“新质生产力”,雷蒙多操碎了心
2024-09-24 12:01 心智观察所 -
月背“土特产”将开放申请!先发给国内科学家研究
2024-09-24 09:06 科技前沿 -
可用上千年!效率最高的辐光伏核电池在我国面世
2024-09-24 07:22 能源战略 -
42.02万高斯!我国打破美国创造的世界纪录
2024-09-22 17:00 科技前沿 -
美国开始重新审视量子计算机,这对中国很重要
2024-09-20 08:45 心智观察所 -
俄罗斯拥抱西方的旧梦:“瓦森纳协定”正走向历史垃圾堆
2024-09-18 07:45 心智观察所
相关推荐 -
“白宫承认‘中方没打来过电话’,我早就知道…” 评论 32“如果美国不认真对待,会被中国彻底碾压” 评论 113中国按下“暂停键”,“波音重大挫折” 评论 142“长期来看,特朗普关税或将增强中国国内经济” 评论 163“眼下是美国痛感更强、压力更大,想重回谈判桌” 评论 169最新闻 Hot
-
又要跟马斯克杠上了?OpenAI布局社交网络
-
“如果美国不认真对待,会被中国彻底碾压”
-
“买到就是赚到”,特朗普家族出“股神”?
-
第一通电话打给中国,“不然我们像傻瓜”
-
想得真美!美国被曝计划用关税谈判来孤立中国
-
麻省理工“明星科学家”,加盟北大
-
中国按下“暂停键”,“波音重大挫折”
-
“中方反制后续来了,而特朗普几乎毫无还手之力”
-
“‘川建国’在美国作妖,倒逼中国崛起”
-
“我们花了22年在中国打造这一切,全毁了”
-
特朗普装可怜:美国农民“伟大”,“挨中国揍”
-
美国特使到底想说啥?半天之后180度转变
-
12306就“五一抢票崩了”致歉
-
李成钢任商务部国际贸易谈判代表
-
“长期来看,特朗普关税或将增强中国国内经济”
-
真急了!特朗普要叫停英伟达对华特供版
-