自年第一种植物拟南芥被全基因测序以来,尤其是近10年来,第二代和第三代测序技术的连续开发极大地促进了植物基因组学迅猛发展,目前已经累积公布了超过种不同植物的个全基因组序列,其中有47个植物基因组组装到了染色体水平(Sunetal.,)。然而,占全球森林生态系统39%的针叶树门(Pinophyta)植物通常具有巨大的基因组(中位数~17Gb),重复序列高达70-80%,给高质量基因组组装带来了巨大挑战。此外,随着基因组的膨胀,针叶树特征性的超长内含子给基因注释造成了更为严峻的困境,一直无法取得突破。
近日,北京林业大学生物科学与技术学院钮世辉副教授团队,北京林业大学北京市林木分子设计育种高精尖研究中心与瑞典农业大学吴夏明教授团队,联合美国密歇根理工大学卫海荣教授团队等6个国家11家单位,组装获得了油松25.4Gb染色体级高质量基因组,并空前地利用包含个样本的超大规模RNA-seq序列数据进行了基因(包括外显子和内含子边界线的)精确识别与注释,在针叶树超大基因组组装与注释领域取得重大突破,大幅度刷新多项针叶树基因组组装和注解的纪录,为其它具有超大型基因组的针叶树的组装和注解开辟了一条蹊径,此研究将会极大地推动针叶树研究并使其提前进入后基因组时代,在高质量参考基因组与基因注释的基础上,该研究系统地阐明或澄清了针叶树基因组的一些特有的特征和进化过程中多个在过去20年一直悬而未决或存在争议的问题,为针叶树进化和利用研究提供了重要资源和参考价值。该研究成果以TheChinesepinegenomeandmethylomeunveilkeyfeaturesofconiferevolution为题,发表在最新Cell期刊上。该研究是Cell期刊创刊以来发表的第一篇针叶树以及祼子植物研究论文,必将成为该研究领域的一个重要里程碑。
图1.油松基因组扩张的“单程票”和特异的进化风景
Niuetal.,Cell,
(1)大幅度刷新祼子植物超大基因组组装质量全球现存的~余种祼子植物中,已经有个物种具有基因组大小文献纪录,其平均值与中位数均达~17Gb。虽然当前已有15种祼子植物相继公布了基因组草图,但组装质量与被子植物相比仍存在明显差距,特别是超大基因组(15Gb),当前所有的组装仍极度碎片化。为突破这一困境,该研究团队利用更高效的工作流描述语言(WDL)对表现最优但运行缓慢的组装工具进行了重编程,将利用大规模数据组装运算时间压缩~4倍至可接受范围(2.6Tb,~6个月).基于X高深度PacbiosequelII三代测序数据,最终成功地组装并获得了25.4Gb染色体级油松基因组,连续性指标contigN50达2.6Mb,是当前已公布的连续性最高的超大基因组,ScaffoldN50更是将此前针叶树纪录提升了近千倍。
图2.种祼子植物基因组大小及全基因组测序情况|Niuetal.,Cell,
(2)在针叶树基因注释上取得重大突破在后基因组时代,随着第三代测序技术的发展,对大多数物种来说,基因组组装已经不再是最主要障碍,而基因结构的精确识别与注释对于参考基因组的应用已经越来越被重视。最近研究表明,即便是对于研究十分深入的模式物种如拟南芥(Zhangetal.,)和大鼠(Rattusnorvegicus)(Jietal.,),其转录组也存在严重的低估。本研究发现,仅基于通用流程,油松基因注释的完整性仅能达到~30%;后续分析发现,油松基因平均内含子长度达10kb,是被子植物平均内含子长度的20倍,这些超大内含子给外显子的识别带来了极大的障碍,这也是目前针叶树基因组项目面临的最严峻挑战。最终,该团队基于包含多种组织及不同年龄和培养条件的个样本的大规模RNA-seq数据,通过20多种注释流程的比较与多轮优化,最终将针叶树全长基因注释质量大幅度提升。在此基础上,首次对油松基因组全部个转录因子(TF)与个转录调控因子(TR)进行了手工鉴定与逐一命名,并将基因名称写入注释文件供相关研究参考,为推动针叶树研究领域同源基因统一命名,通畅学术交流,起到了良好示范与引领作用。
(3)破解针叶树卓越适应性的遗传基础针叶树是北半球森林生态系统的骨干,同时也是世界林业的主导树种,我国每年进口木产品中,约有70%为针叶材。作为广泛分布的先锋树种,针叶树一直以其卓越的抗逆性而著称,然而其适应性的分子基础目前尚不清楚。
图3.全球陆地植被覆盖情况
来源见图片
此前研究表明,全基因组复制事件(WGD)可能为被子植物自白垩纪中期后的快速扩张提供了重要进化动力,更高的基因冗余性使多倍体通常在逆境中表现出更强的适应性。然而,针叶树中WGD的发生频率远低于被子植物。本研究发现,虽然油松在进化中经历过2次极古老的WGD事件(2亿年前),但并未发生近期WGD事件。不过,令人惊奇的是,针叶树的多数基因都发生了复制(91.2%),主要通过散在重复(dispersedduplication,DSD)机制进行复制,其中3,个显著扩张基因家族在生物与非生物胁迫响应通路极显著富集。因此,基因复制带来的基因冗余性可能发挥了WGD相似的功能,赋予了针叶树更强的适应性,其中抗逆性相关基因的大量积累可能为针叶树卓越的抗逆性提供了遗传基础。
(4)深入揭示了松脂合成代谢的完整通路松脂生物合成是松类植物的重要特征。有趣的是,本研究首次把油松的汉语拼音“yousong”引入英文文献,并向西方研究者解释了其汉语词义:“多脂的松树(resinpine)”。本研究解析了针叶树中最完整的松脂合成通路,发现油松多数位点基因数量与被子植物相似,但关键限速酶发生了剧烈扩张,如拟南芥中仅存在2个HMGR关键酶拷贝,但油松中存在20个拷贝。同时油松中发现了个直接引起树脂萜类化合物多样性的TPS基因,油松也成为目前发现的存在TPS基因数目最多的物种。这些扩张基因有规律地根据功能分类成簇地聚集在染色体上,在DNA上铭刻着“油松”之名的名副其实。作为常绿植物,松树针叶通常可以在枝头宿存2-5年,有趣的是,本研究发现松树的新旧针叶可能具有不同的生理学功能,多数松脂合成通路基因仅在当年生新生针叶中高表达,表明幼嫩的新生针叶可能是针叶树松脂代谢的主要合成器官。
图4.油松松脂代谢通路中关键酶的复制
Niuetal.,Cell,
(5)构建了针叶树特异的生殖发育调控框架与有花植物(被子植物)不同,针叶树并不能产生真正意义上的“花”,其生殖器官通常被称之为雌球花(大孢子叶球)与雄球花(小孢子叶球子)。模式植物拟南芥中目前已经鉴定了超过个生殖发育调控基因,本研究对油松相关同源基因进行了逐一分析,发现针叶树基因组缺乏多个被子植物生殖调控网络骨干节点调控因子如FT、FD、FLC、FLM、AP1等,表明针叶树中存在特异的生殖发育调控网络。此外,通过详细的表达分析,本研究对在雌雄球花中高丰度表达的12个MADS-box转录因子进行了双向一对一蛋白互作分析(12×12),构建了首张针叶树生殖发育精细蛋白互作网络,在此基础上,提出了一个比传统理论认为的BC模型要更精细的针叶树生殖器官决定模型。这些信息为针叶树生殖发育的进一步深入研究提供了蓝图。
图5.油松生殖发育相关MADS-box蛋白互作网络与核心发育模型
Niuetal.,Cell,
(6)对Science杂志提出的个前沿科学问题的解答年,Science杂志在创刊年时,提出了个最重要的前沿科学问题(Questions:WhatWeDon’tKnow),其中第66号问题是:为什么一些基因组很大,另一些则相当紧凑?(Whyaresomegenomesreallybigandothersquite