张一婧实验室

植物生物信息学和功能表观基因组学组

软件及数据库


Wheat-RegNet:基于机器学习方案整合多组学数据搭建小麦层级调控网络平台

普通小麦(Triticum aestivum)是全球重要粮食作物,阐明其基因调控网络可以为机制研究和分子育种靶标选取提供重要信息。 然而,鉴于普通小麦庞大而复杂的基因组(16 Gb,异源六倍体),使得这成为一项具有挑战性的任务。本研究收集整理189个普通小麦转录因子结合谱、90个表观基因组数据集、2,356个转录组和144个农艺性状的全基因组关联研究(GWAS)数据及染色质空间互作数据。

在此基础上,利用机器学习方案进一步整合这些特征以推断层级调控网络,并开发在线检索平台Wheat-RegNet,该平台提供了四个主要功能: (i) 检索输入基因(列表)的调控元件信息,RPS值以及相关的GWAS性状; (ii) 检索输入基因(列表)的上游转录因子信息;(iii) 检索输入基因(列表)的层级调控网络信息; (iv) 数据可视化。

综上,Wheat-RegNet作为研究普通小麦复杂调控网络的在线工具,服务于普通小麦的分子机制与分子育种研究。

Go to Wheat-RegNet >>>

Triti-Map: 多组学 BSA 定位分析和de novo序列组装的小麦族功能基因定位分析流程

Triti-Map 是一套结合多组学 BSA 定位分析和de novo序列组装的小麦族功能基因定位分析流程。通过 Snakemake 开发,共包含三个分析模块:Interval Mapping Module、Assembly Module、Web-based Annotation Module该分析流程针对小麦族大基因组物种开发和优化,进行常规 BSA定位分析的同时可以挖掘参考基因组中不存在的新功能基因,还可以结合在线注释平台进行更多深入的下游分析。

其中,Interval Mapping Module 和 Assembly Module 为命令行软件,输入为混池测序 DNA-Seq(ChIP-Seq/WGS)或 RNA-Seq 数据,可以一步生成包括性状关联区间、突变位点和新基因在内的多种结果。

Web-based Annotation Module 为在线分析平台。Triti-Map 收集了小麦族各物种和六倍体小麦已有测序品种的基因组信息。统一进行了基因功能注释和转录因子结合位点预测,同时整合了各物种有代表性的表观修饰数据。该平台可以进行包括 SNP 注释与可视化展示、同源基因分析、小麦族共线性区间分析和新序列功能注释在内的多种分析,可以为小麦族基因克隆提供更加丰富的参考信息。

Go to Triti-Map >>>

CGT-seq: 核心基因组靶向测序技术

CGT-seq利用来自活性表观遗传标记和抑制性表观遗传标记的表观基因组信息,指导主要由启动子和基因区域组成的核心基因组的组装。该方法实现相对简单,对获取面包小麦核心基因组具有较高的敏感性和特异性。

同时,用CGT-seq能够检测到小麦95%的基因区域和89%的启动子区。我们在水稻的研究中进一步证明,CGT-seq可以从未测序的生态型中捕获数百个新基因和调控序列。

CGT-seq也是一种效率和资源有效的方法,通过对基因及其附近区域的特定富集分析和测序,可以对具有大基因组的已测序或者未测序群体中的功能相关区域进行分析。

Go to CGT-seq >>>

Plant Regulomics: 用于检索上游调控因子的数据驱动平台

Plant Regulomics是一个从植物多组学数据中检索上游调控因子的数据驱动平台,它主要收集了拟南芥、水稻、玉米、大豆、番茄和小麦这六个植物物种的转录组和表观组数据集,各种来源的功能注释信息(58112功能条目和695141蛋白与蛋白相互作用)以及其它56个全基因组测序的植物物种的同源基因。这些数据被很好地组织成基因模块,并进一步在统一的统计框架中进行分析。

对于任何输入的基因列表或基因组位点,Plant Regulome能够从整合的组学数据中检索出调控用户输入的因子、处理和实验/环境条件。此外,它提供了多种分析工具以及用户友好的web界面。

Go to Plant Regulomics >>>

GSHR: 基于基因集分析的拟南芥激素应答平台

GSHR是一个基于整合的拟南芥激素应答基因集进行分析的数据库平台,它促进了对激素转录组变化的跨研究和跨平台比较。

GSHR是一个用户友好的平台,与其他类似的平台相比,它有以下几个特点:

1. GSHR聚焦于拟南芥的激素应答反应,它利用Fisher's exact test来对用户输入的基因列表和激素应答相关的基因集进行比较。

2. 提供了其他分析工具,包括聚类分析、共表达网络、KEGG、GO和InterPro富集分析,帮助用户挖掘其基因列表的潜在生物学意义。

Go to GSHR >>>

CARMO:水稻多组学的综合注释

CARMO是一个基于web的平台,为水稻多组学数据提供全面的注释,包括转录组数据集、表观基因组修饰位点、基因组重测序产生的单核苷酸多态性位点,以及从这些组学研究中获得的大型基因列表。条理清晰的结果以及多种交互可视化工具都可以通过此用户友好型的web界面获得。

CARMO的强大功能在于全面收集和整合了水稻的多组学数据和多种功能证据,并将这些信息进一步整理成基因集和更高水平的基因模块。通过这种方式,高通量数据可以很容易地在不同的研究和平台之间进行比较,而且值得注意的是,多种类型证据的整合提供了来自模块级别的生物学解释,具有很高的可信度。手稿中的案例研究表明,CARMO不仅重复了报道的证据,而且为进一步的实验探索提出了新的功能见解。

Go to CARMO >>>

MAnorm: ChIP-Seq数据的定量比较

ChIP-Seq广泛用于描述转录因子和其它染色质相关蛋白的全基因组结合模式。尽管ChIP-Seq数据集的比较对于理解细胞类型和细胞状态特异性结合至关重要,但对细胞特异性基因调控的研究还很少有定量的方法。在此,我们提出一种简单有效的方法,MAnorm,用于描述转录因子结合位点和表观遗传修饰的ChIP-Seq数据集的定量比较。MAnorm推断的数量结合差异与靶基因表达的变化和细胞类型特异性调控因子的结合均有很强的相关性。

Go to MAnorm >>>

Motif-Scan: 扫描基因组区域,寻找特定的基序,并进行富集分析

随着ChIP-seq数据在不同细胞类型间的积累,一种有效而准确的方法对于揭示不同细胞类型中调控因子结合与表观遗传修饰之间的关系至关重要。我们提出了一个综合计算工具包,MAmotif,以推断细胞类型特定的调控器。基于表观遗传变化越高的区域更容易被关键细胞类型特异性调控因子直接靶向的假设,我们结合MAnorm对2种细胞类型的定量比较信息和转录因子结合位点信息来推断细胞类型特异性调控因子。这里MAnorm是一个定量比较ChIP-seq数据在两种细胞类型之间的模型。而我们新开发的motif扫描包可以从表观遗传变化区域检测到转录因子变化位点(TFBS)。我们的motif扫描算法是一种基于位置权矩阵(PWM)的概率模型:motif ,将a的得分计算为a在目标序列上发生的概率与基因组背景上发生的概率之比。当得分超过阈值时,最终可以将目标序列定义为motif A目标序列,这是从motif A得分在整个基因组序列上的分布情况计算得到的。在制备表观遗传修饰变化和转录因子变化信息时,采用多种统计检验和聚类方法确定表观遗传修饰变化与特定细胞类型的motif结合亲和力之间的联系。

Go to Motif-Scan >>>