明星换脸av

学术科研
当前位置: 明星换脸av 明星换脸av > 学术科研 > 正文
【南湖新闻网】明星换脸av 在AI驱动的植物染色质交互预测模型和平台研发方面取得进展
发布日期 2026-02-26 浏览次数

南湖新闻网讯(通讯员 王振业)近日,明星换脸av 玉米团队在Plant Biotechnology Journal杂志在线发表了题为“PlantCTCIP: Chromatin Interaction Prediction using Convolutional Neural Network and Transformer in Plants”的研究论文。该研究开发了一种基于Convolutional Neural Network and Transformer的植物(玉米、水稻、棉花和小麦等)染色质交互预测模型PlantCTCIP。在基因启动子近端交互(Promoter proximal region interaction, PPIs)和基因与远端调控元件交互(Promoter-proximal and distal interactions, PDIs)两种模式下,PlantCTCIP比现有模型的AUC均值分别提高了14.56%和9.6%。基于PlantCTCIP模型,该研究构建了四个作物的全基因组染色质互作图谱,挖掘了影响染色质交互的重要基序。研究发现,影响染色质互作的基序及其转录因子协同网络呈现显著的物种特异性。进一步,研究团队将已克隆的基因(ZmRAVL1, ZmRPG, GaFZ等)作为实例,结合染色质构象捕获实验(3C)得到PlantCTCIP,可以辅助识别远端元件调控的靶基因和挖掘功能位点。该研究可以为不同作物分子设计和智能育种提供新的视角。

远端元件通过染色质交互与靶基因相互作用,从而影响基因的表达。染色质三维互作研究在动物和拟南芥为代表的植物模式生物中已取得显著进展(Ouyang et al., 2023)。深入理解染色质交互、染色质环及拓扑关联域 (Topologically Associating Domains, TADs) 等染色质相关的潜在机制,对于全面了解基因转录调控至关重要 (Whalen et al., 2016; Zeng et al., 2018)。近年来,三维基因组学技术(如Hi-C和Micro-C和ChIA-PET)逐步应用于作物,但受限于植物细胞壁等因素的制约。目前玉米(Dong et al., 2020), 水稻(Liu et al., 2017), 棉花(Wang et al., 2018)以及小麦(Ramírez-González et al., 2018)等作物包含少量染色质交互数据,制约了进一步深入解析染色质互作模式规律,且影响挖掘染色质交互的序列特征。因此,借助机器学习解析作物三维基因组的互作机制具有重要的研究意义。明星换脸av 刘建晓教授及其合作团队开发了一种基于Convolutional Neural Network and Transformer的植物(玉米、水稻、棉花和小麦等)染色质交互预测模型PlantCTCIP和平台。

验证PlantCTCIP在预测染色质相互作用方面具有更好的准确性和泛化能力

为了评估PlantCTCIP在预测染色质相互作用方面的性能,本研究对四种常用的PPIs和PDIs模式下预测染色质交互作用的模型进行了实验比较。四个比较模型是DeepTACT, ChINN, SEPT和SPEID。预测结果表明,在PPIs模式下,PlantCTCIP的玉米AUC值为0.968,棉花为0.923,小麦为0.964,水稻为0.996。这些值明显高于四个物种的现有四个模型。平均AUC值分别增加了10.1%、24.6%、14.45%和9.1%(图1A-E)。类似的,在PDIs模式下PlantCTCIP与其他四种模型相比在玉米,棉花以及小麦中AUC值分别提高了2.5%, 14.4%, 12%(图1F-H)。可见PlantCTCIP在不同物种中PPIs模式的预测准确率高于PDIs模式(图1I),这主要与两种模式的数据集的准确性有关。可见,PlantCTCIP具有较高的预测准确率,且在不同物种之间具有普适性。进一步,该研究依次使用玉米、水稻、小麦和棉花的训练模型预测另外三个物种的染色质交互。以上结果表明,PlantCTCIP具有较高的跨物种预测准确率,这说明不同物种之间的染色质交互存在较为显著的物种保守性。

PlantCTCIP可实现四种植物全基因组PPI的高精度预测

利用构建PlantCTCIP模型对四个物种(玉米、棉花、小麦和水稻)全基因组内的染色质交互进行预测,进而对生物学实验的检测结果进行补充。具体来讲,研究团队将同一条染色体内的任意两个基因序列输入到PlantCTCIP模型,进而得到不同物种每一条染色体中的染色质交互全景(图2A-C)。为了进一步验证PlantCTCIP预测得到的染色质图谱的可靠性,研究人员选取玉米B73苗期幼叶进行了Hi-C测序(图2D)。以玉米五号染色体为例,PlantCTCIP预测得到两个区段(chr5:0-20 Mb 和 chr5:28-40 Mb)的染色质交互图谱(图2E, G),交互图谱显示出较为明显的TADs(Topologically associated domains, TADs)。进一步,将PlantCTCIP在上述两个目标区段中的预测结果与Hi-C实验结果进行对照。结果表明PlantCTCIP鉴定的交互热点区域与Hi-C实验结果显示出一致的交互模式(图2F, H),验证了PlantCTCIP模型预测的可靠性。为了探究预测结果中高交互基因的分子特征,将与靶基因交互基因的数目记为靶基因的度。研究人员对不同物种中交互度排名靠前的1,500个高交互基因(Hub基因)的分子特征进行分析。与不交互或低交互的基因相比(随机进行了50次重复),高交互的基因具有更高的表达量、更高的GC含量、基因长度更长、外显子数目更多,基因所在区域开放程度更高,同时富集了更多活跃的组蛋白修饰 (图2I, J, 附图S5)。进一步利用DeepLIFT和连续梯度方法在PPIs模式下挖掘得到四个物种影响染色质交互的重要基序。在maize, cotton, rice以及wheat四个物种分别检测到5746、 7266、1809和6382个影响染色质近端交互的重要基序(连续梯度的阈值设置为0.5)(图2J)。可见检测到的motif大部分为特异性motif,其中605个motif在不同物种中保守性。进一步将605个保守的基序进行聚类得到10个重要的核心基序(图2K)。基于TOMTOM平台(Bailey et al., 2015)将PPIs模式下鉴定到的motif与PlantTFDB等数据库进行比对,可见PlantCTCIP鉴定到的影响染色质交互的重要基序与先前报道的motif具有高度的一致性。

PlantCTCIP可揭示植物转录因子和染色质近端交互的关联关系

研究人员进一步分析了不同物种的高交互基因对中两个基因对应TFs的分布情况。相关的核心TFs主要包括bHLH, Dof, C2H2, TCP以及MYB_related等。结果表明玉米、水稻、棉花和小麦大部分高交互基因关联的TFs具有保守性 (图3A),也存在一些物种特异性的TFs。例如转录因子CAMTA与Dof的关联只存在于玉米高交互基因的染色质交互序列中。转录因子ARR-B与ARF的关联只存在于棉花高交互基因的染色质交互序列中(图3B)。另外,研究团队将四个物种中鉴定到的TFs之间的协作关系和TFs在Hub基因序列中的富集情况进行相关性分析。结果表明bHLH参与了四个物种的染色质交互,同时显著富集在具有高交互度的基因中。此外,转录因子C2H2在四个物种鉴定到的Hub基因序列中均高度富集(3C进一步分析C2H2, bHLH, ERF, TCP以及Dof五个TF分别在四个物种Hub基因序列中的分布情况。结果表明在PPIs模式下,ERF和TCP在四个物种的Hub基因序列中拥有相同的分布模式。水稻中的转录因子C2H2显著在基因的TSS下游250bp附近处富集。类似的,玉米中转录因子bHLH同样在基因TSS下游250bp处富集,这一结论与Schlegel等人的研究结果具有一致性 (图3D) (Schlegel et al,. 2024)。为了进一步探究预测的染色质交互的准确性,研究人员对PlantCTCIP预测的玉米染色质交互与双分子荧光互补实验(BiFC)以及蛋白交互网络进行匹配 (Han et al., 2021) (附表 S2)。团队成员收集了59对公开报道的玉米双分子荧光互补实验(BiFC)数据 (Han et al., 2021),并利用PlantCTCIP预测相应的基因序列对是否交互。结果表明PlantCTCIP预测得到其中36对基因序列存在交互,占比为61.02%。基于Han等人(Han et al., 2021报道的33万对玉米蛋白质互作数据,该研究将PlantCTCIP在玉米PPIs模式下预测的染色质交互与该数据集进行了比对。结果表明,PlantCTCIP预测的染色质交互样本中约有13万对在上述蛋白质互作网络中得到验证,占报道的13万对染色质相互作用的39.4%3E

多个植物物种全基因组PDIs预测结果分析

对玉米、棉花和小麦的每个OCRs与其上下游各2 Mb范围内的基因进行染色质交互预测,结果分别如图4 A, B, C所示 (附图 S8, 附表 S7)。类似于PPIs模式的分析方法,研究团队进一步利用玉米幼苗期时期的Hi-C实验对chr1:4.7 Mb-8.7 Mb和chr2:1.1 Mb-5.1 Mb两个区域的PDI交互进行验证,结果支持PlantCTCIP预测结果的可靠性 (图4D, E)。研究团队将PlantCTCIP预测的PDI中每个OCRs所关联的基因数量定义为该OCRs的交互度。本研究对预测得到的玉米交互度前1,500的OCRs进行进一步过滤。研究人员采用以下筛选标准得到83个符合条件的OCRs(附图 S9):交互度高、所调控基因的表达水平较高、位于染色体两端区域。

结果显示,这些OCRs在调控不同基因时呈现出不同的梯度分布特征,且其所调控基因在TSS下游250 bp区域普遍具有高梯度值。可见远端元件在调控不同基因时,其发挥功能的位点可能存在差异。结合已有eQTL研究数据 (Liu et al., 2020),研究团队在上述83个OCRs中鉴定得到一个关键区间(chr6:167,167,767-167,169,266)。作为eQTL可调控下游的三个基因:Zm00001d038927, Zm00001d038928 和 Zm00001d038929 (附图 S10)。PlantCTCIP预测该区域与三个基因之间存在交互,且该区段内约200 bp区域具有较高的梯度值。该区域在玉米九个组织中均具有较高的染色质开放性,进一步支持了其作为增强子发挥调控功能的可能性。

研究团队进一步选取交互度前1,500的OCRs进行特征分析。通过50次的随机抽样结果显示高交互OCRs(HI-OCR)比随机OCRs拥有更多的GC含量、更高的染色质开放状态以及能够富集到更多活跃的组蛋白修饰信号(图4F, G)。基于预测到的1,500个具有高交互度的OCRs,研究人员进一步鉴定影响PDI的重要基序。通过DeepLIFT和连续梯度等可解释方法,在玉米、棉花和小麦中分别识别到3,795、3,944和619个关键motif。上述基序中大多数为物种特异性motif,其中包括170个三物种共有的保守motif(图4H)。对170个保守motif进行聚类分析得到5个核心motif类别(4I进一步利用TOMTOM工具(Bailey et al., 2015将这些motif与PlantTFDB数据库进行比对。结果显示PlantCTCIP识别的关键motif与已有报道的结果具有高度的一致性,验证了PlantCTCIP在PDIs模式下挖掘功能性调控元件的可靠性。

PlantCTCIP可以精准鉴定与特定调控元件序列具有交互的靶基因

该研究将已报道的玉米基因ZmRAVL1,ZmRPG以及棉花基因GaFZ作为实例,研究人员结合3C实验揭示了PlantCTCIP可以挖掘远端调控元件中的功能位点以及辅助定位靶基因(图5)。

为了方便广大研究人员使用开发的PlantCTCIP模型,本研究构建了首个植物多物种实时在线染色质交互预测平台(//www.plantctcip.com/)。该平台整合了玉米(B73)、水稻(MH63, ZS97)、小麦(Chinese Spring)和棉花(A2, B1, C1, D5, E1, F1, G1, K2)四个物种多个组织的三维基因组数据,实现了不同作物PPIs和PDIs两种模式染色质交互的精准预测。同时该平台引入可解释性深度学习模块,利用DeepLIFT算法生成染色质交互序列中碱基重要性热图,以可视化展示调控元件(如UPA2)在染色质交互中的重要性分布(图6)。

明星换脸av 博士研究生王振业(现河南农业大学青年教师、硕士研究生周思妤和已毕业本科生郭泽为论文共同第一作者。明星换脸av 明星换脸av 、作物遗传改良全国重点实验室刘建晓教授和作物遗传改良全国重点实验室博士后彭勇为该研究工作共同通讯作者。严建兵教授为本研究工作提供了重要指导和支持,王茂军教授在棉花相关数据方面提供了帮助。研究工作得到了国家自然科学基金、国家重点研发计划等项目的资助。

论文链接://onlinelibrary.wiley.com/doi/10.1111/pbi.70586

审核:刘建晓

原文链接:明星换脸av 在AI驱动的植物染色质交互预测模型和平台研发方面取得进展