近日,科技领域传来一则令人振奋的消息:北京大学定量生物学中心钱珑团队成功研发并构建了全球首个针对功能基因挖掘任务的大语言模型SYMPLEX。这一创新成果为生物基因研究带来了新的曙光,有望推动生物制造领域迈向新的高度。
在生物领域,自然界生物体内蕴含着数量庞大且功能多样的有用基因,这些基因历经亿万年自然选择,成为生物制造与合成生物技术的基因“宝库”。然而,目前只有一小部分热门基因得到充分挖掘和利用。究其原因,是现有的基于序列、结构或深度学习的基因挖掘与蛋白质设计方法存在技术瓶颈,难以拓展至复杂基因,从而制约了对高价值基因元件的深入开发。
钱珑团队敏锐地察觉到这一问题,并展开了深入研究。他们创造性地将大型语言模型与结构化生物知识库深度融合,经过不懈努力,开发出了SYMPLEX智能基因挖掘平台。这一平台堪称功能基因的“超级搜索引擎”,具备强大的自动化阅读和理解能力。它能够“翻阅”千万级体量的生物学文献,精准提取分析基因、功能和知识层面的内容,再与专家数据库进行概念对齐、交互和统计模式生成,最终产生高质量的候选基因集合。对比传统方法,SYMPLEX大模型展现出了显著优势,为基因挖掘带来了新的思路和方法。
为了验证SYMPLEX的实用性,团队与中科院深圳先进技术研究院娄春波研究员合作,将其应用于mRNA加帽酶基因的挖掘。实验结果令人惊喜,新发现的加帽酶活性显著优于mRNA疫苗生产中采用的商业化酶。这一成果不仅解决了mRNA疫苗5’端加帽这一效率低、成本高的“卡脖子”环节,还为mRNA疫苗和基于mRNA的基因疗法研究提供了关键技术。据钱珑介绍,SYMPLEX发现了近2万个新型加帽酶,并对其中十余个序列进行了验证,找到了活性超过当前mRNA疫苗制备使用加帽酶2倍的新酶。
钱珑表示:“本项研究开创了功能基因挖掘的新范式,为mRNA疫苗规模化生产提供了关键酶资源库。”这一创新成果具有重大的科学意义和应用价值。它不仅为生物制造提供了新的基因资源,还为蛋白质功能设计、生物制剂开发以及生物制造的应用提供了科学依据。
目前,研究团队并未止步于此。他们正在利用SYMPLEX大模型进行更多可用于合成生物学的关键酶元件挖掘,并将该平台拓展至合成通路设计等领域。可以预见,随着研究的不断深入,SYMPLEX有望推动生物制造进入“人工智能驱动的科学研究”的新阶段,为生物科技的发展注入新的活力,为人类健康和福祉带来更多福祉。