2
点赞
0
评论
1
转载
我要入驻

Genos-m正式开源!面向人源微生物基因组的基座大模型

收录于合集: # 科研成果

学者网讯(编辑/刘伶 通讯员/杨柳)近日,华大-之江Genos团队发布Genos-m——一个面向人体相关微生物基因组的开源基础模型。

IMG_256

Genos-m以人体相关微生物基因组为主要预训练语料,覆盖多个人体相关生态位,并同时纳入共生微生物、病原微生物和噬菌体。模型可将微生物DNA序列、基因组和宏基因组样本转化为可复用的序列表征,在多项微生物基因组任务和真实宏基因组应用中展现出优异的稳健性和可迁移性。

面向未来,Genos-m有望为病原微生物耐药与毒力识别、候选益生菌筛选与功能评价、微生态评估与人群分层、个体化微生态管理等前沿研究与转化应用提供新的模型支撑。

为什么需要一个专门面向人体微生物基因组设计的模型?

人体微生物组与健康、疾病和个体差异密切相关。随着微生物基因组数据积累,研究者关注的不仅是“有哪些微生物”,更包括其序列携带的功能、生态和表型信息。现有通用DNA大模型通常面向跨物种、跨生命域序列训练,覆盖广、通用性强;但聚焦人体相关微生物时,通用性并不等于专业性。人体微生物组高度多样,其功能差异常体现在菌株水平、可变基因区和长距离基因组上下文中。

Genos-m正是为这一场景设计。研究团队构建了以人体相关微生物为主体的预训练语料,整合分离株基因组、高质量宏基因组组装基因组(MAGs)和噬菌体基因组,并辅以全球原核代表基因组,以增强对微生物序列多样性和基础规律的覆盖,最终形成约1.2万亿核苷酸token的训练数据。

Genos-m模型如何工作?单碱基预测与长上下文建模

Genos-m采用单碱基分辨率的next-token prediction,即“下一碱基预测”预训练任务。模型以A/T/C/G等碱基为基本单位,通过预测下一个碱基,学习微生物DNA序列中的局部模式、基因结构和长距离上下文关系。在架构上,Genos-m继承Genos的核心设计,并针对微生物基因组语料扩展专家容量。它使用稀疏激活的MoE Transformer:总参数规模约4.7B,每次推理仅激活约3.3亿参数,兼顾模型容量与计算效率。模型支持最长1M bp的上下文输入,可覆盖短序列、单基因、基因簇、噬菌体基因组及更长基因组片段,为跨尺度序列表征提供模型基础。

IMG_257

图:Genos-m模型架构:稀疏MoE Transformer使用32个专家和Top-2路由,支持最高1M bp上下文。

Genos-m模型表现如何?小激活规模下的跨任务优势

Genos-m的评测从微生物研究的真实需求出发,覆盖从短序列到完整基因组的多个层级:包括启动子、耐药基因、毒力因子等局部序列识别;生物合成基因簇(BGC)等长片段功能模块识别与分类,以及基于全基因组序列的细菌表型预测。结果表明,Genos-m在较小激活规模下获得了有竞争力的跨任务表现,在多项任务中达到与Evo2-40B等更大规模通用DNA模型相当的水平,并在抗生素耐药基因识别、BGC分类和五项基因适应性任务中取得比较模型中的最佳结果。这说明,Genos-m的核心优势来自面向人体相关微生物基因组场景的一系列整体设计:高质量预训练语料、长上下文建模,以及适合微生物序列多样性的稀疏专家架构。

从评测走向真实场景:疾病风险评估与低深度样本表征

标准评测回答了Genos-m的表征能力是否可稳定迁移。团队进一步将模型放到人肠道宏基因组真实场景中,重点展示了两个应用方向:微生物组的自监督学习建模和低深度样本表征。

案例一:基因组表征增强微生物组的自监督学习

在本场景中,团队将Genos-m生成的基因组表征接入微生物组群落自监督学习模型,使模型在物种丰度之外,可进一步利用代表基因组中的序列信息。基于全球14个肠道宏基因组队列的结直肠癌病例-对照分类评估显示,该策略在同队列交叉验证和跨队列迁移中,明显优于传统物种丰度随机森林模型。这意味着,复杂疾病相关的微生物信号不只体现在“哪些物种更多或更少”,更可能来自其基因组背景及功能潜力差异。Genos-m的作用,是将这些序列层信息转化为群落模型可使用的表征,通过提供物种丰度之外的信息维度来提升疾病风险判别模型的稳定性和跨人群可迁移性。

案例二:低深度宏基因组样本表征

在本场景中,团队直接从下采样reads生成宏基因组样本级表征。结果显示,仅使用1万条reads,Genos-m仍能生成稳定的人肠道样本级表征,保留样本间群落结构差异,并捕捉宿主地理来源和肠型分层等关键群落信号。这意味着,在极低测序深度下,Genos-m也能快速、无需参考数据库的生成可比较的样本表征,为大规模低输入宏基因组数据的样本比对、来源评估和质控预筛等提供轻量化分析路径。

结语

Genos-m建立了一个面向人体相关微生物基因组与宏基因组的序列表征框架。通过高质量预训练语料、稀疏专家架构和长上下文建模,模型在微生物基因、基因组和宏基因组样本等不同尺度上展现出稳定的迁移能力。从标准评测到结直肠癌队列建模和低深度样本表征,Genos-m展示了高维序列信息在微生物研究与转化场景中的应用价值。未来,团队将继续推动模型迭代和开源应用,服务于更广泛的人体微生物与健康研究。( 全文完)

学者网机构号是学者网提供的学术"公众号"平台,为学者团队、学术机构、企业等提供官方媒体账号服务,支持发布动态、活动、通知与招生招聘信息等内容,支持多人协作维护,助力机构链接学界资源、扩大学术影响力。

立足湾区,放眼全国,我们希望能以专业的视角观照社会科技发展前沿,以切中肯綮的见解为湾区科技创新做出自己的贡献,为湾区科技工作者、湾区科创企业、湾区科技发展趋势,注入磅礴不息的生机与活力。
返回顶部