扩散模型对接生物学:3步吃透药物研发红利

在2024年10月9日,外媒传来消息,诺贝尔化学奖授予了Google DeepMind的Demis Hassabis和John Jumper,以及来自美国的David Baker,以表彰他们在AlphaFold和蛋白质设计领域的开创性工作。这也是化学领域首次把目光投向机器学习研究者,标志着人工智能技术不仅推动了科学研究,也改写了生物化学的未来。
AlphaFold 2曾在2021年发布,仅用了三年的时间便从一篇学术论文变成了诺奖作品,这背后印证了其变革性的力量。更让人欣喜的是,支撑它的核心技术其实来源于熟悉的机器学习框架:Transformer、Attention机制、扩散模型(Diffusion Model)以及图神经网络(GNN)。这些架构本是常用于自然语言处理或图像处理的先进算法,现在却在生命科学中找到了全新的应用。
新媒网跨境了解到,蛋白质折叠这一领域如今已经成为深度学习架构创新的最活跃前沿之一。
De技术对接生物学:人工智能如何探秘生命奥秘
以下为机器学习技术在蛋白质结构预测中的一些革命性应用:
Transformer与Attention机制
在AlphaFold中被改造为Evoformer模型,专门用于捕捉二维关系矩阵的关注模式,帮助预测蛋白质中位置间的相互作用。扩散模型(Diffusion Models)
在AlphaFold 3及RFdiffusion中用于生成三维结构,通过遵循物理约束的形式在三维空间中进行去噪。图神经网络(Graph Neural Networks)
将蛋白质视作几何图,通过3D点云传递信息构建结构化蛋白质序列。语言模型(LM)
ESM-2对此进行了进一步扩展,利用掩码语言建模来解码“蛋白质语言”,揭示其进化模式规律。对称保持网络(SE(3) Equivariant Networks)
确保输入旋转或移动后输出仍保持不变,从而完美反映蛋白质的结构特征。
这些应用已经在多个领域证明了实际价值。例如,加速了药物研发,从过去的几年缩短到仅需几周;在疫苗开发中实现了疫苗抗原设计的高效突破。
蛋白质基础知识:非生物专业跨境人需要知道什么?
即便没有生物专业背景,只需掌握一些关键点,你也可以迅速进入蛋白质人工智能应用的领域。
1. 蛋白质的组成和功能
蛋白质可以视为一串用特定规则编写的“20字母语言”,每个字母代表一种氨基酸。其长度通常在100到1000之间。
它们承担生命活动中的重要角色:
- 酶如淀粉酶,将分子进行分解。
- 抗体识别并中和病毒和细菌。
- 血红蛋白运输氧气。
- 胰岛素调节血糖。
值得牢记的是,蛋白质的功能取决于它的三维结构。我们可以说,了解蛋白质形状就等于了解它的功能。
2. 从DNA到蛋白质:中心法则的路径图
生物体通过两步过程让DNA指令最终变成功能性蛋白质:
- 转录(Transcription):DNA被复制成信使RNA (mRNA)。
- 翻译(Translation):核糖体读取mRNA编码,组装氨基酸链。
翻译中最重要的密码是遗传代码:每三个核苷酸(称为密码子)指定一种氨基酸。例如,“ATG”是启动信号,“TGA”是停止信号。
3. 蛋白质折叠问题:科学的经典难题
要预测蛋白质的三维形状,我们面临着巨大的搜索空间。科学家Levinthal计算过,即使我们在每秒尝试10¹²种可能的折叠方式,找到一个小蛋白质的正确形状也将耗费超过宇宙的年龄时间。然而,然而,自然界中的蛋白质却可以在毫秒内正确折叠。
背后的关键在于共进化规律。简单理解,当两个位置在三维空间中紧密相邻时,其遗传序列会从漫长的进化中共同发生变化。通过分析不同物种的蛋白质序列,找到共进化关系,科学家得以重建其三维架构,这一过程如同在语言模型中通过词的共现模式学习句法。
新媒网跨境认为:机遇同样面向普通从业者
蛋白质人工智能已不再是实验室的专属领域。多年来,开源工具生态系统迅速扩展,成为构建和部署蛋白质AI解决方案的强大技术支撑。如果你是跨境行业的从业者,也不妨尝试使用这些工具去发现和创造业务上的新机会。
新媒网跨境也预测,蛋白质人工智能的应用场景将不仅限于科学范畴,还可能延伸至更多商业、医药以及工业领域。对中国的跨境从业者来说,这既是一个学习的窗口,也是打开全球市场的钥匙。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/diffusion-models-3-steps-to-drug-breakthrough.html


粤公网安备 44011302004783号 












