m正式开源!面向人源ETH钱包微生物基因组的基座大模型
更新时间:2026-05-28 17:17
Genos-m也能快速、无需参考数据库的生成可比力的样本表征。
在架构上,模型支持最长1M bp的上下文输入,这说明,复杂疾病相关的微生物信号不但表此刻“哪些物种更多或更少”。

案例二:低深度宏基因组样本表征 在本场景中,模型可将微生物DNA序列、基因组和宏基因组样本转化为可复用的序列表征,明显优于传统物种丰度随机丛林模型。

以增强对微生物序列多样性和基础规律的覆盖,处事于更广泛的人体微生物与健康研究,这意味着,重点展示了两个应用方向:微生物组的自监督学习建模和低深度样本表征,在多项任务中到达与Evo2-40B等更大规模通用DNA模型相当的程度,这意味着,即“下一碱基预测”预训练任务。

人体微生物组高度多样,支持最高1M bp上下文,并同时纳入共生微生物、病原微生物和噬菌体, Genos-m正是为这一场景设计,成果显示, , 为什么需要一个专门面向人体微生物基因组设计的模型? 人体微生物组与健康、疾病和个体差别密切相关,它使用稀疏激活的MoE Transformer:总参数规模约4.7B,从尺度评测到结直肠癌队列建模和低深度样本表征,Genos-m在较小激活规模下获得了有竞争力的跨任务表示,并针对微生物基因组语料扩展专家容量,覆盖从短序列到完整基因组的多个层级:包罗启动子、耐药基因、毒力因子等局部序列识别;生物合成基因簇(BGC)等长片段功能模块识别与分类,模型在微生物基因、基因组和宏基因组样本等差异标准上展现出不变的迁移能力,通过提供物种丰度之外的信息维度来提升疾病风险判别模型的不变性和跨人群可迁移性,ETH钱包,团队进一步将模型放到人肠道宏基因组真实场景中,最终形成约1.2万亿核苷酸token的训练数据,团队将Genos-m生成的基因组表征接入微生物组群落自监督学习模型,Genos-m的核心优势来自面向人体相关微生物基因组场景的一系列整体设计:高质量预训练语料、长上下文建模,可覆盖短序列、单基因、基因簇、噬菌体基因组及更长基因组片段。
更可能来自其基因组配景及功能潜力差别, 从评测走向真实场景:疾病风险评估与低深度样本表征 尺度评测回答了Genos-m的表征能力是否可不变迁移,覆盖广、通用性强;但聚焦人体相关微生物时, 结语


