2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

AI大模型赋能表观基因组学,实现细胞类型特异性的表观遗传标记预测

发布日期:2024-11-22 06:02:10 浏览次数: 2747
作者:医工交叉AI大模型

微信搜一搜,关注“医工交叉AI大模型”


研究背景

近年来,随着基因组学研究的不断深入,科学家们在研究基因组非编码区域的表达调控过程中发现了一个重要问题:超过90%的遗传变异位点位于非编码区域,理解这些变异如何影响表观基因组对于解释全基因组关联研究(GWAS)结果至关重要。然而,由于实验方法的可扩展性限制,我们难以在不同细胞类型中系统地描绘这些效应。

来自伦敦帝国理工学院的研究团队最近在Nature Communications上发表了一篇重要论文,他们开发了一个名为Enformer Celltyping的深度学习模型,可以预测新的细胞类型中的表观遗传信号。

模型创新

Enformer Celltyping模型具有以下创新特点:

  1. 远程效应整合
  • 模型可以考虑DNA相互作用的远程效应,最远可达100,000个碱基对
  • 采用预训练的Enformer模型进行迁移学习,保留了其强大的远程互作建模能力
  1. 新细胞类型预测
  • 只需要目标细胞类型的染色质可及性数据(ATAC-seq)即可进行预测
  • 可以预测6种组蛋白修饰标记(H3K27ac, H3K4me1, H3K4me3, H3K9me3, H3K27me3, H3K36me3)

论文图1a展示了Enformer Celltyping的整体架构,模型使用transformer模块处理DNA序列,同时整合局部和全基因组范围的染色质可及性信号来预测细胞类型特异的组蛋白修饰标记

技术细节

模型架构

Enformer Celltyping的训练分为两个阶段:

  1. 预训练阶段:
  • DNA子模块:预测组蛋白标记的平均信号和分布
  • 细胞分型子模块:预测细胞类型特异信号与平均信号的差异
  1. 全模型训练阶段:
  • 整合两个子模块的输出
  • 通过卷积层和全连接层进行最终预测

模型使用的数据转换公式:

QTL效应聚合公式:

训练细节

  • 训练数据:来自104个细胞类型的67,007个基因组区域
  • GPU训练时间:预训练4天,全模型训练1.5天
  • 使用Adam优化器,学习率分别为0.0002(预训练)和0.005(全模型训练)

性能评估

研究团队从多个方面评估了模型性能:

  1. 基准测试
  • 论文图3a展示了与现有最佳模型Epitome的对比结果,Enformer Celltyping在所有细胞类型和组蛋白标记预测上都取得了更好的表现
  1. 功能区域预测
  • 论文图4展示了在功能相关区域(启动子、增强子等)的预测性能,模型在远端调控区域的预测特别出色
  1. 非ENCODE细胞类型预测
  • 论文图5展示了模型在独立的脑细胞类型数据集上的表现,证明了模型的泛化能力

生物学应用

遗传变异效应预测

研究团队开发了一个基于组蛋白QTL数据的评估框架:

  • 使用SLDP(signed linkage disequilibrium profile)方法评估预测效果
  • 考虑连锁不平衡的影响
  • 论文图6展示了遗传变异效应预测的评估结果

复杂性状关联研究

  • 模型可用于研究疾病相关的遗传变异
  • 论文图8展示了在不同细胞类型中疾病相关变异的富集分析结果

主要发现

  1. 预测准确性
  • 在已知细胞类型中优于现有最佳方法
  • 在新的细胞类型中保持稳定表现
  1. 生物学意义
  • 成功捕获细胞类型特异的表观遗传特征
  • 有助于理解非编码区域的调控功能
  1. 应用价值
  • 可用于预测难以获取实验数据的细胞类型
  • 为复杂疾病研究提供新工具

研究展望

尽管取得了显著进展,研究团队也指出了一些局限性和未来改进方向:

  1. 数据质量:
  • 大多使用推断的ATAC-seq数据
  • 需要更多高质量的实验数据支持
  1. 预测分辨率:
  • 当前为128bp,低于标准的25bp
  • 可能影响遗传变异效应预测的准确性
  1. 迁移学习策略:
  • 冻结预训练层可能限制模型性能
  • 需要探索更灵活的迁移学习方法

代码及资源获取

为了促进研究成果的应用和复现,研究团队公开了相关资源:

  • GitHub代码仓库:https://github.com/neurogenomics/EnformerCelltyping
  • 预训练模型:https://figshare.com/projects/Enformer_Celltyping/159143

结论

Enformer Celltyping的开发为表观基因组学研究提供了一个强大的计算工具。它不仅能够准确预测新细胞类型的表观遗传标记,还为理解非编码区域的功能和疾病相关性提供了新的视角。这项工作展示了人工智能在生命科学研究中的巨大潜力,也为未来的表观基因组学研究指明了方向。

对于研究人员来说,这个模型特别有用,因为它只需要较易获取的ATAC-seq数据就能预测多种组蛋白修饰标记,大大降低了研究成本和技术门槛。未来,随着更多高质量数据的积累和模型的进一步优化,我们有理由期待这项技术能够为更多生物医学研究带来突破性的进展。

Q&A环节

Q1: Enformer Celltyping模型为什么选择使用ATAC-seq数据作为细胞类型特异性的输入,而不是其他类型的数据?

这个选择基于几个重要考虑:

  1. 技术优势:ATAC-seq相比DNase-seq需要更少的细胞数量(3-5倍),但能达到相似的灵敏度和特异性
  2. 实用性:ATAC-seq已经成为测量染色质可及性的首选方法,越来越多的研究者使用这种技术
  3. 未来发展:选择ATAC-seq使模型更适合未来用户的需求
  4. 信息量:染色质可及性数据能够很好地反映细胞类型特异的表观遗传状态

Q2: 模型的预训练阶段为什么要分成两个子模块(DNA模块和细胞分型模块)?这种设计有什么优势?

预训练阶段的双模块设计具有以下优势:

  1. 合理初始化:DNA模块使用预训练的Enformer权重,而细胞分型模块的权重是随机初始化的,分开训练可以避免随机初始化的权重干扰预训练好的权重
  2. 任务分解:DNA模块专注于预测组蛋白标记的平均信号和分布,而细胞分型模块专注于预测细胞特异性的偏差
  3. 性能提升:实验结果表明(补充图4)这种预训练策略显著提高了模型的整体性能
  4. 模块化设计:便于后期维护和优化各个组件

Q3: 模型在预测遗传变异效应方面存在哪些局限性?为什么会出现这些问题?

根据论文分析,主要存在以下局限:

  1. 预测分辨率限制:
  • 模型使用128bp的分辨率,而不是标准的25bp
  • 这可能会稀释遗传变异对表观遗传信号的影响
  1. 训练范式问题:
  • 模型主要基于参考基因组序列训练
  • 缺乏个体遗传变异的训练数据
  • 对跨样本遗传变异的预测能力有限
  1. 远程效应建模:
  • 虽然模型有100kb的感受野,但在预测远程调控效应时仍然存在偏差
  • 可能低估了远程调控元件的重要性

Q4: 模型是如何处理全基因组范围的染色质可及性信号的?这种方法有什么特别之处?

模型的全基因组信号处理方法很独特:

  1. 标记基因选择:
  • 使用PanglaoDB数据库中的1216个标记基因
  • 这些基因来自1000多个单细胞RNA-seq实验
  1. 信号处理:
  • 获取每个标记基因转录起始位点周围3000bp的信号
  • 以250bp的分辨率平均化处理
  • 总计处理3.648百万个碱基对的信息
  1. 嵌入方法:
  • 采用类似NLP中的方法进行信号嵌入
  • 不同分辨率的嵌入可以捕获不同尺度的信息

Q5: 模型在预测超级增强子(super-enhancers)方面表现如何?这对疾病研究有什么意义?

模型在超级增强子预测方面表现出色:

  1. 预测性能:
  • 在cancer cell lines的交叉验证中达到0.85的ROC曲线下面积
  • 能够很好地区分超级增强子和普通增强子区域
  1. 细胞特异性:
  • 成功捕获了超级增强子的细胞类型特异性特征
  • 对不同细胞类型中的超级增强子有很好的区分能力
  1. 疾病研究意义:
  • 超级增强子与细胞身份密切相关
  • 有助于理解疾病相关的调控异常
  • 为治疗靶点的识别提供新思路

Q6: 模型是如何处理和评估连锁不平衡(LD)的影响的?为什么这很重要?

模型通过以下方式处理LD影响:

  1. SLDP方法的应用:
  • 使用广义最小二乘回归
  • 通过迭代翻转变异效应方向来构建空分布
  • 考虑群体水平的LD结构
  1. 重要性:
  • LD会导致假阳性关联
  • 影响因果变异的识别
  • 对遗传变异效应预测的评估至关重要
  1. 实施策略:这个公式考虑了LD的影响,其中G_m是与变异m相关的所有组蛋白峰的集合

Q7: 模型的迁移学习策略有什么特点?为什么选择冻结部分预训练层?

迁移学习策略的特点:

  1. 架构设计:
  • 保留Enformer的transformer和卷积层
  • 移除原始输出层
  • 添加新的任务特异层
  1. 冻结策略原因:
  • 保持预训练模型捕获的DNA序列特征
  • 减少计算资源需求(132 vs 5376 GPU小时)
  • 避免灾难性遗忘
  1. 权衡考虑:
  • 可能限制模型的灵活性
  • 但大大提高了训练效率
  • 保证了基本的DNA特征提取能力

Q8: 模型在不同类型的组蛋白标记预测上表现是否一致?如何解释这些差异?

预测表现确实存在差异:

  1. 表现差异:
  • H3K27ac和H3K4me3预测效果最好
  • H3K27me3预测效果相对较差
  1. 可能原因:
  • 不同标记的生物学特性不同
  • 训练数据的质量和数量差异
  • 标记与染色质可及性的相关程度不同
  1. 影响因素:
  • 信号噪音比
  • 标记的空间分布特征
  • 与其他表观遗传标记的互作关系

Q9: 模型预测的细胞类型特异性是如何验证的?这种验证方法有什么特点?

验证方法多层次:

  1. 直接验证:
  • 使用已知细胞标记基因
  • 验证预测信号的细胞特异性
  • 如AIF-1基因在小胶质细胞中的表现
  1. 功能区域验证:
  • 在启动子区域的预测准确性
  • 在远程调控区域的表现
  • 超级增强子的预测能力
  1. 交叉验证:
  • 使用非ENCODE细胞类型
  • 跨平台数据验证
  • 不同测序深度的影响评估

Q10: 模型在复杂疾病研究中的应用前景如何?有什么具体的应用案例?

应用前景广阔:

  1. 疾病相关变异分析:
  • 预测非编码区变异的功能影响
  • 识别细胞类型特异的疾病机制
  • 帮助解释GWAS结果
  1. 具体案例:
  • 阿尔茨海默病相关变异在小胶质细胞中的富集
  • 精神分裂症相关变异在神经元中的效应
  • 免疫疾病变异在免疫细胞中的表现
  1. 临床转化潜力:
  • 辅助药物靶点发现
  • 指导个性化治疗
  • 支持生物标志物开发

Enformer Celltyping - GitHub项目使用指南

项目简介

Enformer Celltyping是一个基于深度学习的模型,能够预测之前未见过的细胞类型中的表观遗传信号。该模型具有以下主要特点:

  • 可以整合远达100,000个碱基对的DNA互作效应
  • 使用DNA序列和染色质可及性数据(ATAC-Seq)进行预测
  • 可以预测六种组蛋白修饰标记(H3K27ac, H3K4me1, H3K4me3, H3K9me3, H3K27me3, H3K36me3)

安装步骤

  1. 克隆仓库
git clone https://github.com/neurogenomics/EnformerCelltyping
cd EnformerCelltyping
  1. 环境配置
  • 需要先安装conda包管理器
  • 通过yml文件创建所需环境:
conda env create -f ./environment/enformer_celltyping.yml
make renv
make pyanalyenv
conda activate EnformerCelltyping
pip install -e .
  1. 下载依赖文件
python bin/download_Enformer_Celltyping_dependencies.py

所有依赖文件可在figshare查看和下载。

使用方式

该项目支持两种主要使用场景:

1. 使用预训练模型

适用于以下情况:

  • 有目标细胞类型的ATAC-seq数据(bulk或整合的scATAC-seq)
  • 需要预测组蛋白修饰轨迹
  • 详细教程见using_enformer_celltyping

主要功能包括:

  • 预测特定细胞类型的组蛋白标记
  • 测试模型的感受野
  • 可视化细胞类型嵌入
  • 预测遗传变异效应

2. 训练自定义模型

提供两种训练指南:

  • training_demo.ipynb:使用示例数据的简单训练演示
  • full_training_recreation.ipynb:完整的训练流程,包括数据下载、预处理和模型训练

重要分析的复现

1. hQTL SNP效应预测分析

  • 需要预测超过85万个SNP在不同细胞类型中的效应
  • 包含检查点保存、DNA嵌入预计算、并行运行等优化策略
  • 详见reproducing_hQTL_SNP_effect_prediction

2. 细胞类型基序富集分析

分析步骤:

  • 全基因组范围的细胞类型预测
  • 计算预测峰区域的全局输入梯度
  • 识别依赖全局信号的峰
  • 基序富集分析
  • 转录因子的细胞类型特异性分析
  • 详见reproducing_cell_type_motif_enrichment

3. LDSC富集分析

  • 基于全基因组预测进行
  • 提供完整的分析流程
  • 详见reproducing_ldsc_enrichment

资源链接

  • GitHub仓库:https://github.com/neurogenomics/EnformerCelltyping
  • 依赖文件:https://figshare.com/projects/Enformer_Celltyping/159143
  • 相关论文:https://doi.org/10.1101/2024.02.15.580484

注意事项

  1. 环境配置
  • 确保正确安装conda
  • 需要足够的磁盘空间和计算资源
  • 依赖文件下载可能需要较长时间
  1. 模型使用
  • 预测大规模数据时建议使用检查点机制
  • 考虑使用预计算的DNA嵌入以提高效率
  • 建议参考示例notebook进行操作
  1. 分析复现
  • 完整分析可能需要较大计算资源
  • 建议按需选择感兴趣的部分进行复现
  • 可以利用提供的中间结果加速分析

使用者可以根据自己的研究需求,选择合适的使用方式和分析流程。项目提供的详细文档和示例代码可以帮助研究者快速上手和应用这个强大的工具

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅