AI狂飙!从基因创造1200亿全新蛋白,震惊生物界!

2025-11-22合成生物学

AI狂飙!从基因创造1200亿全新蛋白,震惊生物界!

近年来,人工智能技术在生物科学领域取得了令人瞩目的突破,尤其在蛋白质结构与功能的关系研究上,更是展现了非凡的实力。我们看到AI系统能够精准预测绝大多数蛋白质的三维结构,甚至还能设计出具有特定功能的蛋白质分子。这些成就无疑为生命科学带来了革命性的变革。然而,当我们深入思考生命的奥秘,会发现蛋白质的生成并非其故事的起点。在细胞的微观世界里,一切的改变都源于更基础的层面——核酸。

生命体中,基因的演变和新蛋白质的诞生,最初都发生在核酸层面。DNA作为生命的蓝图,与最终形成的蛋白质之间,隔着编码与非编码序列、遗传密码的冗余以及相当的灵活性。因此,让AI系统直接从基因组的组织结构中去理解并学会如何制造功能性蛋白质,这本身就是一项极具挑战性的任务。但现在,一项新的研究成果让人们看到了希望:通过对海量细菌基因组数据进行训练,AI系统不仅能成功预测已知蛋白质,甚至还能“创造”出前所未见、闻所未闻的全新蛋白质,这无疑是生命科学领域的一次重大飞跃。

这项开创性的工作由美国斯坦福大学的一个小型研究团队完成。他们的成功,很大程度上得益于细菌基因组一个普遍存在的特性:功能相关的基因往往会聚集在一起。想象一下,细菌就像一个个高效的微型工厂,当它们需要处理某种糖分、合成某种氨基酸时,所有相关“生产线”上的基因都会紧密地排列在一起。许多情况下,这些基因甚至会被一次性转录成一条巨大的信使RNA。这种精妙的机制,赋予了细菌一种简单而高效的方式来协同控制整个生化通路,从而大幅提升了其新陈代谢的效率。

研究人员正是基于这一生物学原理,开发出了一种独特的“基因组语言模型”,他们将其命名为Evo。新媒网跨境了解到,Evo模型在极其庞大的细菌基因组数据集上进行了训练。它的训练方式与当下流行的大型语言模型(LLM)有异曲同工之妙:Evo被要求预测序列中的下一个碱基,如果预测正确便会得到“奖励”。更令人惊叹的是,Evo还是一个生成式模型。这意味着,当研究人员给它一个“提示”或“指令”时,它能输出全新的序列,而且每次输出都带有一丝随机性,即相同的提示也能产生一系列不同的结果。

研究团队认为,这种训练设置让Evo模型能够“将核苷酸层面的模式与千碱基尺度的基因组背景联系起来”。简单来说,就像我们向大型语言模型提问一样,如果你给Evo输入一段较长的基因组DNA片段,它就能像理解人类语言查询那样,解读这段基因信息,并生成在基因组意义上“合理”的输出。鉴于Evo在细菌基因组上接受的训练,研究人员推断,如果他们用一个已知的基因作为输入提示,Evo应该能生成包含编码相关功能蛋白质区域的输出。而这里的关键问题在于,它究竟是仅仅重复我们已知的蛋白质序列,还是能带来一些意想不到的、更具创新性的结果?

为了验证Evo系统的潜力,研究人员首先用已知蛋白质基因的片段来“考验”它,看看Evo能否成功补齐缺失的部分。在一个实验中,当Evo获得一个已知蛋白质基因30%的序列时,它能够准确地补全剩余部分的85%。如果输入序列的比例提高到80%,Evo甚至能够完整无误地恢复所有缺失的序列。更令人振奋的是,当一个功能基因簇中的某个基因被故意删除后,Evo也能够精准地识别并恢复这个缺失的基因,展现出其对基因组完整性和功能的深刻“理解”。

海量的训练数据确保了Evo能够正确识别蛋白质中最重要的区域。即便它对序列进行了修改,这些修改也大多发生在蛋白质中变异容忍度较高的区域。这说明,Evo在训练过程中,已经将已知基因演化限制的规律融入了其“思维模式”,具备了模拟自然进化的能力。

那么,如果让Evo去创造一些全新的东西,结果会如何呢?研究人员决定进行一项大胆的尝试。他们选择了细菌毒素作为研究对象,这类毒素通常与一种抗毒素基因共同编码,以防止细菌在激活毒素基因时误伤自身。自然界中存在着大量的毒素-抗毒素系统,它们在细菌与竞争对手的生存竞赛中不断快速演变。团队设计了一种与已知毒素仅有轻微关联、且没有已知抗毒素的新型毒素,并将其序列输入Evo作为提示。这次,他们特别过滤掉了任何与已知抗毒素基因相似的响应结果。

在Evo返回的10个输出结果中,研究人员测试发现,其中一半的输出能够不同程度地解除毒性,而令人惊喜的是,有两组输出甚至能够完全恢复受毒素影响细菌的生长。这两组全新的抗毒素与任何已知抗毒素的相似度都极低,序列同一性仅为25%左右。更重要的是,它们并非简单地将几个已知抗毒素片段拼接而成,而是至少由15到20个独立蛋白质的片段组装而成。在另一项额外的测试中,Evo生成的输出甚至需要从40个已知蛋白质的片段中进行“组装”,这无疑证明了Evo卓越的创造力。

Evo的成功并非局限于蛋白质领域。当研究团队测试一种以RNA为基础的抑制剂的毒素时,Evo同样能够生成编码具有正确结构特征的RNA的DNA序列,即便这些特定序列与任何已知的RNA都没有密切关联。这再次印证了Evo在核酸层面进行功能设计和创造的强大能力。

在更进一步的实验中,研究团队将Evo应用于CRISPR系统的抑制剂研究。我们知道,CRISPR技术如今被广泛应用于基因编辑,但它最初是细菌用来抵御病毒入侵的一种防御机制。自然界中存在的CRISPR抑制剂种类繁多,许多彼此之间似乎都没有直接关联。研究团队再次对Evo的输出结果进行了严格筛选,只保留那些编码蛋白质的序列,并进一步排除了任何与已知蛋白质相似的输出。

在最终生成并测试的蛋白质列表中,有17种成功抑制了CRISPR功能。其中,有两类蛋白质的表现尤为突出,它们不仅与任何已知蛋白质都没有丝毫相似之处,甚至连用于预测蛋白质三维结构的专业软件都被它们“搞糊涂了”。这意味着,除了我们预期的那些输出外,Evo系统似乎真的有能力“制造”出功能全新、结构独特的蛋白质,而这一切的发生,似乎并没有预先考虑蛋白质的具体结构,这不得不让人感到惊叹。新媒网跨境认为,这项突破性的研究,无疑为生命科学带来了前所未有的想象空间。

鉴于Evo系统已经证明了其强大且独特的创造能力,研究人员决定进行一次更大规模的探索。他们将细菌及其宿主病毒的170万个独立基因作为提示输入Evo系统,结果生成了高达1200亿对碱基的AI合成DNA序列。这些庞大的序列中,既包含了我们已知的基因,也毫无疑问地蕴藏着无数真正意义上的“全新物质”。虽然目前尚不清楚如何高效地利用这一海量资源,但我们相信,全球富有创造力的生物学家们定会从中发现无尽的宝藏,并将其应用于造福人类的各项事业中。

当然,我们也要认识到,目前这种方法是否适用于更复杂的基因组,例如人类自身的基因组,仍有待进一步探索。像脊椎动物这类复杂生物的基因,其功能相关的基因通常不会像细菌那样紧密聚集,而且它们的基因结构也更为复杂精细,这可能会给试图学习碱基频率统计规则的Evo系统带来挑战。同时,这项研究解决的问题也不同于那些旨在开发如“消化塑料”等特定功能的酶的定向设计努力。

即便如此,这项研究的成功本身已足够令人惊叹。从概念上讲,它深具启发性,因为它将功能蛋白质的发现工作推进到了核酸层面——这正是自然进化发挥作用的根本层次。这无疑为我们打开了一扇通往生命奥秘深处的新大门,预示着一个由人工智能驱动的生物创新时代正在加速到来。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/ai-makes-120b-new-proteins-from-dna.html

评论(0)
暂无评论,快来抢沙发~
斯坦福大学团队研发出革命性AI模型Evo,该模型通过大规模细菌基因组训练,能从核酸层面理解并“创造”功能性蛋白质。Evo不仅能精准预测缺失基因,更成功生成前所未见的新型抗毒素、CRISPR抑制剂及RNA序列,甚至在核酸层面设计功能。这项突破将蛋白质发现推向基因组基础,预示着AI驱动的生物创新时代加速到来,为生命科学带来变革性进展。
发布于 2025-11-22
查看人数 164
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。