2019-05-16 06:14:01
软件定位感兴趣的甘蔗基因

与所有动物相比,植物具有更大和更复杂的基因组,无论是哺乳动物,鸟类,爬行动物还是两栖动物。鱼是规则的例外。

人类DNA由遍布23对染色体的约32亿个碱基对组成,共有46条染色体。然而,小麦(Triticum aestivum)的基因组包含170亿个碱基对,分为21对染色体(总共42个)。甘蔗(Saccharum spp。)的基因组在100-130个染色体中含有100亿个碱基对。

今天种植的甘蔗是一种杂交种(S. hybridum),来自两个物种,即T. officinarum- 3000年前在印度驯化的原始甘蔗 - 和S. spontaneum。

“甘蔗基因组已成为一个巨人。使用当前的基因组方法很难使用它。解密它需要大量的计算能力。即使使用最先进的计算机处理术语也很困难,它们是总之,这对生物信息学来说是一个挑战,“巴西圣保罗州坎皮纳斯大学生物学研究所(IB-UNICAMP)基因组学和生物能源实验室(LGE)生物信息学协调员Marcelo Falsarella Carazzolle说。

“多年来,世界各地的实验室都试图并且未能绘制甘蔗基因组图谱。第一次成功的努力仅在几个月前由包括巴西在内的几个国家的研究人员联合体完成,”Carazzolle说。

该联盟部署的战略涉及大规模计算和大量投资以对整个基因组进行测序,即所有100亿个碱基对。

在“DNA研究”杂志上发表的一篇文章中,Carazzolle及其同事提出了一种成本更低,耗时更少的策略。该技术旨在绘制多倍体植物的基因组的特定部分。

支持这项创新的一些研究是为博士生进行的。由Karina Yanagui de Almeida撰写的论文和JulianaJosé的博士后项目。两人都是IB-UNICAMP的生物学家,并由GonçaloAmaranteGuimarãesPereira教授监督。巴西国家科学和技术发展委员会(CNPq)也提供了资金。

“我们开发了重建这些复杂基因组并将其应用于甘蔗所必需的软件。我们并没有尝试组装整个基因组。以前的研究开始重建植物的整个DNA,但我们的策略包括关注相应的小部分大约1%-2%,正是植物育种者感兴趣的基因所在的位置,“Carazzolle解释说。

与映射整个基因组所花费的数千万美元相比,这种策略至少节省了两个数量级。项目完成后,该联合体尚未公布其结果,因此巴西遗传学家必须使用公开数据,如高粱,水稻和玉米的基因组,这些数据与甘蔗或多或少有关。找到他们想要在甘蔗基因组的类似区域中破译的区域。

通过类比选择是可能的,因为所有的草都有一个共同的祖先,存在于5000多万年前。换句话说,在所有这些时间之后,今天任何草的DNA  - 甘蔗,小麦,高粱,水稻,玉米等 - 仍然保留了原始的核心结构,以及在数十年间发生的数十亿次突变。

基因汇编程序

在IB-UNICAMP进行的研究结果是一个名为Polyploid Gene Assembler(PGA)的软件包。 “PGA代表了一种利用低覆盖率DNA测序基于复杂基因组组装遗传空间的新策略,”Carazzolle说。

尽管PGA比多倍体全基因组的大规模处理需要更少的计算机能力,但仍需要非常大的系统来及时运行程序。在这种情况下,研究人员使用属于工程与科学计算中心(CCES)的计算机集群,该中心是研究,创新和传播中心之一(RIDC由圣保罗研究基金会 -  FAPESP资助.Carazzolle是该研究的主要研究者。 CCES的生物信息学。

“该项目需要使用具有大量内存的CCES高性能计算机,”Carazzolle说。

他们用来自公共基因组数据库的已知基因位点加载PGA,部署装配策略以为所研究的物种构建高质量的基因组序列,并使用小麦(大麦(Hordeum vulgare))作为一种六倍体物种小麦(Triticum aestivum)验证该程序。参考。确定了超过90%的基因,以及几个新基因。

此外,他们使用PGA来组装来自草种的基因S. spontaneum-与传统的甘蔗(S. officinarum)属于同一属,S. spontaneum用于今天广泛种植的杂交甘蔗品种的亲本谱系(S .copumum)。

“我们共鉴定了39,234个基因,其中60.4%被归类为已知的草基因家族。与其他草类相比,37个基因家族得到了扩展。其中3个基因拷贝数量突出,可能与初始发育和压力有关。回应,“卡拉佐勒说。

“我们对S. spontaneum基因组的研究结果首次突出了某些重要特征的分子基础,如高生产力和对生物和非生物胁迫的抗性。这些结果可用于未来的功能和遗传研究。他们也将支持新甘蔗品种的开发。

“使用PGA,我们在T.aestivum和S. spontaneum中提供了高质量的基因区域组装,证明PGA可以比应用于复杂基因组和使用低覆盖率DNA测序的常规策略更有效.PGA的低内存需求与传统装配策略的比较也是一个优势。“

Carazzolle强调,即使在测序技术方面取得了重大进展,复杂基因组的组装仍然是瓶颈,主要是由于多倍体和高杂合性。他补充说,新生物信息学工作的发展可以帮助克服这些限制,特别是在密切相关生物的全基因组的情况下,可以使用参考引导的组装方法。

猜您喜欢的其它内容