AI大模型赋能表观基因组学，实现细胞类型特异性的表观遗传标记预测

发布日期：2024-11-22 06:02:10 浏览次数： 2747

作者：医工交叉AI大模型

微信搜一搜，关注“医工交叉AI大模型”

研究背景

近年来，随着基因组学研究的不断深入，科学家们在研究基因组非编码区域的表达调控过程中发现了一个重要问题：超过90%的遗传变异位点位于非编码区域，理解这些变异如何影响表观基因组对于解释全基因组关联研究(GWAS)结果至关重要。然而，由于实验方法的可扩展性限制，我们难以在不同细胞类型中系统地描绘这些效应。

来自伦敦帝国理工学院的研究团队最近在Nature Communications上发表了一篇重要论文，他们开发了一个名为Enformer Celltyping的深度学习模型，可以预测新的细胞类型中的表观遗传信号。

模型创新

Enformer Celltyping模型具有以下创新特点：

远程效应整合：

模型可以考虑DNA相互作用的远程效应，最远可达100,000个碱基对
采用预训练的Enformer模型进行迁移学习，保留了其强大的远程互作建模能力

新细胞类型预测：

只需要目标细胞类型的染色质可及性数据(ATAC-seq)即可进行预测
可以预测6种组蛋白修饰标记(H3K27ac, H3K4me1, H3K4me3, H3K9me3, H3K27me3, H3K36me3)

论文图1a展示了Enformer Celltyping的整体架构，模型使用transformer模块处理DNA序列，同时整合局部和全基因组范围的染色质可及性信号来预测细胞类型特异的组蛋白修饰标记。

技术细节

模型架构

Enformer Celltyping的训练分为两个阶段：

预训练阶段：

DNA子模块：预测组蛋白标记的平均信号和分布
细胞分型子模块：预测细胞类型特异信号与平均信号的差异

全模型训练阶段：

整合两个子模块的输出
通过卷积层和全连接层进行最终预测

模型使用的数据转换公式：

QTL效应聚合公式：

训练细节

训练数据：来自104个细胞类型的67,007个基因组区域
GPU训练时间：预训练4天，全模型训练1.5天
使用Adam优化器，学习率分别为0.0002(预训练)和0.005(全模型训练)

性能评估

研究团队从多个方面评估了模型性能：

基准测试

论文图3a展示了与现有最佳模型Epitome的对比结果，Enformer Celltyping在所有细胞类型和组蛋白标记预测上都取得了更好的表现

功能区域预测

论文图4展示了在功能相关区域(启动子、增强子等)的预测性能，模型在远端调控区域的预测特别出色

非ENCODE细胞类型预测

论文图5展示了模型在独立的脑细胞类型数据集上的表现，证明了模型的泛化能力

生物学应用

遗传变异效应预测

研究团队开发了一个基于组蛋白QTL数据的评估框架：

使用SLDP(signed linkage disequilibrium profile)方法评估预测效果
考虑连锁不平衡的影响

论文图6展示了遗传变异效应预测的评估结果

复杂性状关联研究

模型可用于研究疾病相关的遗传变异

论文图8展示了在不同细胞类型中疾病相关变异的富集分析结果

主要发现

预测准确性：

在已知细胞类型中优于现有最佳方法
在新的细胞类型中保持稳定表现

生物学意义：

成功捕获细胞类型特异的表观遗传特征
有助于理解非编码区域的调控功能

应用价值：

可用于预测难以获取实验数据的细胞类型
为复杂疾病研究提供新工具

研究展望

尽管取得了显著进展，研究团队也指出了一些局限性和未来改进方向：

数据质量：

大多使用推断的ATAC-seq数据
需要更多高质量的实验数据支持

预测分辨率：

当前为128bp，低于标准的25bp
可能影响遗传变异效应预测的准确性

迁移学习策略：

冻结预训练层可能限制模型性能
需要探索更灵活的迁移学习方法

代码及资源获取

为了促进研究成果的应用和复现，研究团队公开了相关资源：

GitHub代码仓库：https://github.com/neurogenomics/EnformerCelltyping
预训练模型：https://figshare.com/projects/Enformer_Celltyping/159143

结论

Enformer Celltyping的开发为表观基因组学研究提供了一个强大的计算工具。它不仅能够准确预测新细胞类型的表观遗传标记，还为理解非编码区域的功能和疾病相关性提供了新的视角。这项工作展示了人工智能在生命科学研究中的巨大潜力，也为未来的表观基因组学研究指明了方向。

对于研究人员来说，这个模型特别有用，因为它只需要较易获取的ATAC-seq数据就能预测多种组蛋白修饰标记，大大降低了研究成本和技术门槛。未来，随着更多高质量数据的积累和模型的进一步优化，我们有理由期待这项技术能够为更多生物医学研究带来突破性的进展。

Q&A环节

Q1: Enformer Celltyping模型为什么选择使用ATAC-seq数据作为细胞类型特异性的输入，而不是其他类型的数据？

这个选择基于几个重要考虑：

技术优势：ATAC-seq相比DNase-seq需要更少的细胞数量(3-5倍)，但能达到相似的灵敏度和特异性
实用性：ATAC-seq已经成为测量染色质可及性的首选方法，越来越多的研究者使用这种技术
未来发展：选择ATAC-seq使模型更适合未来用户的需求
信息量：染色质可及性数据能够很好地反映细胞类型特异的表观遗传状态

Q2: 模型的预训练阶段为什么要分成两个子模块(DNA模块和细胞分型模块)？这种设计有什么优势？

预训练阶段的双模块设计具有以下优势：

合理初始化：DNA模块使用预训练的Enformer权重，而细胞分型模块的权重是随机初始化的，分开训练可以避免随机初始化的权重干扰预训练好的权重
任务分解：DNA模块专注于预测组蛋白标记的平均信号和分布，而细胞分型模块专注于预测细胞特异性的偏差
性能提升：实验结果表明(补充图4)这种预训练策略显著提高了模型的整体性能
模块化设计：便于后期维护和优化各个组件

Q3: 模型在预测遗传变异效应方面存在哪些局限性？为什么会出现这些问题？

根据论文分析，主要存在以下局限：

预测分辨率限制：

模型使用128bp的分辨率，而不是标准的25bp
这可能会稀释遗传变异对表观遗传信号的影响

训练范式问题：

模型主要基于参考基因组序列训练
缺乏个体遗传变异的训练数据
对跨样本遗传变异的预测能力有限

远程效应建模：

虽然模型有100kb的感受野，但在预测远程调控效应时仍然存在偏差
可能低估了远程调控元件的重要性

Q4: 模型是如何处理全基因组范围的染色质可及性信号的？这种方法有什么特别之处？

模型的全基因组信号处理方法很独特：

标记基因选择：

使用PanglaoDB数据库中的1216个标记基因
这些基因来自1000多个单细胞RNA-seq实验

信号处理：

获取每个标记基因转录起始位点周围3000bp的信号
以250bp的分辨率平均化处理
总计处理3.648百万个碱基对的信息

嵌入方法：

采用类似NLP中的方法进行信号嵌入
不同分辨率的嵌入可以捕获不同尺度的信息

Q5: 模型在预测超级增强子(super-enhancers)方面表现如何？这对疾病研究有什么意义？

模型在超级增强子预测方面表现出色：

预测性能：

在cancer cell lines的交叉验证中达到0.85的ROC曲线下面积
能够很好地区分超级增强子和普通增强子区域

细胞特异性：

成功捕获了超级增强子的细胞类型特异性特征
对不同细胞类型中的超级增强子有很好的区分能力

疾病研究意义：

超级增强子与细胞身份密切相关
有助于理解疾病相关的调控异常
为治疗靶点的识别提供新思路

Q6: 模型是如何处理和评估连锁不平衡(LD)的影响的？为什么这很重要？

模型通过以下方式处理LD影响：

SLDP方法的应用：

使用广义最小二乘回归
通过迭代翻转变异效应方向来构建空分布
考虑群体水平的LD结构

重要性：

LD会导致假阳性关联
影响因果变异的识别
对遗传变异效应预测的评估至关重要

实施策略：这个公式考虑了LD的影响，其中G_m是与变异m相关的所有组蛋白峰的集合

Q7: 模型的迁移学习策略有什么特点？为什么选择冻结部分预训练层？

迁移学习策略的特点：

架构设计：

保留Enformer的transformer和卷积层
移除原始输出层
添加新的任务特异层

冻结策略原因：

保持预训练模型捕获的DNA序列特征
减少计算资源需求（132 vs 5376 GPU小时）
避免灾难性遗忘

权衡考虑：

可能限制模型的灵活性
但大大提高了训练效率
保证了基本的DNA特征提取能力

Q8: 模型在不同类型的组蛋白标记预测上表现是否一致？如何解释这些差异？

预测表现确实存在差异：

表现差异：

H3K27ac和H3K4me3预测效果最好
H3K27me3预测效果相对较差

可能原因：

不同标记的生物学特性不同
训练数据的质量和数量差异
标记与染色质可及性的相关程度不同

影响因素：

信号噪音比
标记的空间分布特征
与其他表观遗传标记的互作关系

Q9: 模型预测的细胞类型特异性是如何验证的？这种验证方法有什么特点？

验证方法多层次：

直接验证：

使用已知细胞标记基因
验证预测信号的细胞特异性
如AIF-1基因在小胶质细胞中的表现

功能区域验证：

在启动子区域的预测准确性
在远程调控区域的表现
超级增强子的预测能力

交叉验证：

使用非ENCODE细胞类型
跨平台数据验证
不同测序深度的影响评估

Q10: 模型在复杂疾病研究中的应用前景如何？有什么具体的应用案例？

应用前景广阔：

疾病相关变异分析：

预测非编码区变异的功能影响
识别细胞类型特异的疾病机制
帮助解释GWAS结果

具体案例：

阿尔茨海默病相关变异在小胶质细胞中的富集
精神分裂症相关变异在神经元中的效应
免疫疾病变异在免疫细胞中的表现

临床转化潜力：

辅助药物靶点发现
指导个性化治疗
支持生物标志物开发

Enformer Celltyping - GitHub项目使用指南

项目简介

Enformer Celltyping是一个基于深度学习的模型，能够预测之前未见过的细胞类型中的表观遗传信号。该模型具有以下主要特点：

可以整合远达100,000个碱基对的DNA互作效应
使用DNA序列和染色质可及性数据(ATAC-Seq)进行预测
可以预测六种组蛋白修饰标记(H3K27ac, H3K4me1, H3K4me3, H3K9me3, H3K27me3, H3K36me3)

安装步骤

克隆仓库

git clone https://github.com/neurogenomics/EnformerCelltyping
cd EnformerCelltyping

环境配置

需要先安装conda包管理器
通过yml文件创建所需环境：

conda env create -f ./environment/enformer_celltyping.yml
make renv
make pyanalyenv
conda activate EnformerCelltyping
pip install -e .

下载依赖文件

python bin/download_Enformer_Celltyping_dependencies.py

所有依赖文件可在figshare查看和下载。

使用方式

该项目支持两种主要使用场景：

1. 使用预训练模型

适用于以下情况：

有目标细胞类型的ATAC-seq数据(bulk或整合的scATAC-seq)
需要预测组蛋白修饰轨迹
详细教程见using_enformer_celltyping

主要功能包括：

预测特定细胞类型的组蛋白标记
测试模型的感受野
可视化细胞类型嵌入
预测遗传变异效应

2. 训练自定义模型

提供两种训练指南：

training_demo.ipynb：使用示例数据的简单训练演示
full_training_recreation.ipynb：完整的训练流程，包括数据下载、预处理和模型训练

重要分析的复现

1. hQTL SNP效应预测分析

需要预测超过85万个SNP在不同细胞类型中的效应
包含检查点保存、DNA嵌入预计算、并行运行等优化策略
详见reproducing_hQTL_SNP_effect_prediction

2. 细胞类型基序富集分析

分析步骤：

全基因组范围的细胞类型预测
计算预测峰区域的全局输入梯度
识别依赖全局信号的峰
基序富集分析
转录因子的细胞类型特异性分析
详见reproducing_cell_type_motif_enrichment

3. LDSC富集分析

基于全基因组预测进行
提供完整的分析流程
详见reproducing_ldsc_enrichment

资源链接

GitHub仓库：https://github.com/neurogenomics/EnformerCelltyping
依赖文件：https://figshare.com/projects/Enformer_Celltyping/159143
相关论文：https://doi.org/10.1101/2024.02.15.580484

注意事项

环境配置：

确保正确安装conda
需要足够的磁盘空间和计算资源
依赖文件下载可能需要较长时间

模型使用：

预测大规模数据时建议使用检查点机制
考虑使用预计算的DNA嵌入以提高效率
建议参考示例notebook进行操作

分析复现：

完整分析可能需要较大计算资源
建议按需选择感兴趣的部分进行复现
可以利用提供的中间结果加速分析

使用者可以根据自己的研究需求，选择合适的使用方式和分析流程。项目提供的详细文档和示例代码可以帮助研究者快速上手和应用这个强大的工具

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业