所在位置: 首页  综合事务  科研动态>正文
信息学院于生物医学组学数据处理与药物 AI 领域发表多项重要研究成果
发布时间:2021-10-22

    近日,信息学院于国际顶级期刊Nature/Cell)旗下子刊和生物信息领域顶级刊物(Briefings in Bioinformatics, Bioinformatics)上发表多项重要研究成果。

1、Deep representation features from DreamDIAXMBD improve the analysis of data-independent acquisition proteomics(发表于Nature子刊Communications Biology, 2021

 本文的第一作者是信息学院信息与通信工程系2019级博士生高铭暄,通讯作者是信息学院计算机科学与技术系俞容山教授与生命科学学院韩家淮教授。本文通过分析DIA蛋白质组学数据中各类不同的离子质谱信号,并结合基于循环神经网络的深度学习模型提取肽段洗脱谱图特征,大幅度提高了DIA蛋白质组学数据处理中的定性与定量任务的准确度与稳定性,其性能超过了目前现存的最为先进的DIA数据处理算法。同时,该方法为深度学习算法在DIA蛋白质组学谱图特征提取中的应用奠定了基础,在临床诊断、疾病治疗和药物筛选等大规模蛋白质组学研究中具有广泛的应用前景。

2HeTDR: Drug repositioning based on heterogeneous networks and text mining发表于Cell子刊Patterns, 2021

    本文的第一作者是信息学院计算机科学与技术系2019级博士生金淑婷,通讯作者是信息学院计算机科学与技术系刘向荣教授。药物重定位的目的是通过研究已批准的药物化合物,扩大药物现有适应症或发现新的靶点,从而减少药物开发的时间、成本和风险。本文提出了一种基于异构网络和文本挖掘的药物重定位方法 (HeTDR)该方法基于图神经网络和bioBERT模型,首次结合来自多个网络的药物特征和来自生物医学语料库的疾病特征预测药物与疾病的相关实验证明,HeTDR的性能优于最先进的药物重定位模型。通过对五种疾病的案例分析证明了该模型能够发现疾病潜在候选药物。同时该方法为多种信息融合提供了潜在的解决方案,并显示出准确的性能,可为今后药物重定位的加速发展提供新的思路,并可为临床生物学家提供计算机辅助指导。

3Snipe: Highly sensitive pathogen detection from metagenomic sequencing data发表于Briefings in Bioinformatics, 2021

本文的第一作者是信息学院信息与通信工程系2018级博士生黄丽红,通讯作者是信息学院计算机科学与技术系俞容山教授。宏基因组样本包含丰富的微生物和宿主的遗传信息,但是当样本中存在与目标菌株高度相似序列的背景下,如何检测和鉴定出含量低的目标菌株仍然是当下生物领域研究的难点。针对此问题,本文提出来一种基于物种特有片段作为参考基因组来分析宏基因组样本中的致病菌的新方法相较于几种主流宏基因组分析工具如Kraken2,KrakenUniq,PathoScope2与Sigma,我们的算法能够在目标菌株含量较低的宏基因组样本中,高灵敏和高特异检测出目标菌株。该方法的提出有助于提高临床病原微生物检测的灵敏性和特异性,具有广阔的市场前景和较大的经济、社会效益,适于大范围推广应用。


4preMLI: A pre-trained method to uncover microRNA-lncRNA potential interactions发表于Briefings in Bioinformatics, 2021

本文的第一作者是信息学院计算机科学与技术系2020级研究生俞心宇与2020级博士生蒋立坤,通讯作者是信息学院计算机科学与技术系刘向荣教授。本文通过对大规模RNA序列进行预训练得到更优的序列表征,并结合基于深度特征挖掘机制的深度学习模型进一步获取序列特征,提高了模型在植物RNA相互作用预测任务中的性能,其预测指标超过了目前先进的植物RNA相互作用预测方法,并验证了该模型在植物中具有一定的跨物种预测能力。该模型的提出能够加速探索植物RNA相互作用的生物学功能,模型构建思路也对相关研究具有参考价值。

5、Comparison of high-throughput single-cell RNA sequencing data processing pipelines发表于Briefings in Bioinformatics, 2020

本文的共同第一作者是信息学院信息与通信工程系2019级博士生高铭暄与2018级硕士生凌明毅,通讯作者是信息学院计算机科学与技术系俞容山教授。本文通过使用Nextflow流程控制框架,集成了现存最为广泛使用的7种高通量单细胞转录组测序(scRNA-seq)数据处理软件,开发了高度整合的新型scRNA-seq数据处理流程。同时,文章对现有的7种数据处理流程在来自不同测序平台的多个数据集上进行了性能的测试与比较,在计算性能,定量准确性,高变异基因筛选,差异表达分析等多个方面进行了系统性评估,并为不同来源、不同数据量的测序项目使用的数据处理工具提出建设性的指导。该工作首次评估了数据处理流程对测序数据分析结果的影响,其分析结果与测试框架可为大规模高通量scRNA-seq研究带来系统的指导,为单细胞分析中的数据处理提供可靠的理论依据。

6A novel antibacterial peptide recognition algorithm based on BERT

发表于Briefings in Bioinformatics, 2021

    本文的第一作者是信息学院计算机科学与技术系2020级研究生张悦与2017级研究生林剑远,通讯作者是信息学院计算机科学与技术系刘向荣教授。抗菌肽被视为抗生素的最佳替代品,目前经过实验测定的抗菌肽数量远远小于已知的且经过序列测定的蛋白质数量。本文将预训练策略应用于抗菌肽识别与预测领域,基于BERT 模型构建分类器,使用来自 UniProt 的蛋白质数据进行预训练,分别在具有较大差异的六个抗菌肽数据集上了进行微调和评估。实验结果证明模型预测的准确率优于现有方法,实现了对抗菌肽样本的准确识别。实验验证了预训练和平衡数据集在一定程度上可以提高模型性能,同时提供全新构造的抗菌肽和非抗菌肽数据集,以及训练好的通用蛋白质预训练模型和抗菌肽识别模型。在这个工作中我们提供了经过不同分词方法训练的预训练模型,可以作为各种蛋白质序列迁移学习的预训练模型,为后续研究人员减少模型训练成本。

 

7. ScaleQC: a scalable lossy to lossless solution for NGS data compression发表于Bioinformatics, 2020

    本文的第一作者为信息学院计算机科学与技术系俞容山教授。基因测序的数据量巨大,给基因测序的临床应用带来了困难,二代测序数据中的碱基质量值在无损压缩后仍然占据了很大一部分存储空间,有损压缩技术可以进一步减少质量值占用的空间,但是会导致信息丢失,在许多应用中,仍然需要无损压缩。因此,必须为不同的应用准备多种文件格式的序列数据。本文提出针对二代测序数据碱基质量值的可伸缩压缩方法,根据质量值的统计特性设计了位平面编码算法,提供了一个从无损到有损的多粒度压缩方案,即提高了无损压缩效率,在有损压缩时又尽可能的保留了数据的生物信息,大幅减小了有损压缩对下游分析的影响。通过该算法解决了基因测序的数据量巨大、存储困难的问题,消除了临床研究中使用二代测序技术的数据存储瓶颈。

8、Identifying enhancer promoter interactions with neural network based on pre-trained DNA vectors and attention mechanism

发表于Bioinformatics, 2020

    本文的第一作者是信息学院计算机科学与技术系2017级研究生洪曾艳,通讯作者是信息学院计算机科学与技术系刘向荣教授。增强子启动子相互作用(EPIs)的鉴定对人类发育具有重要意义。本文提出了一种新的深度学习模型EPIVAN,它可以仅使用基因组序列预测远距离的EPIs。为了探索关键序列特征,首先使用预训练的DNA载体编码增强子和启动子然后利用一维卷积和门控递归单元提取局部特征和全局特征最后,利用注意机制提高关键特征的贡献,进一步提高EPIVAN的性能。对六个细胞系的基准比较表明,EPIVAN比最先进的预测指标表现更好,进一步证实了该模型既能捕捉细胞系特有的特征,也能捕捉细胞系共有的特征。此外,该模型具有良好的迁移能力,可以作为迁移学习的预训练模型。


9Diamond: a multi-modal DIA mass spectrometry data processing pipeline发表于Bioinformatics, 2020

本文的第一作者是信息学院计算机科学与技术系2020级硕士生李陈鑫,通讯作者是信息学院计算机科学与技术系俞容山教授。本文通过使用Nextflow流程控制框架,首次将DIA蛋白质组学数据处理中的四种策略十余个分析工具集成一体,开发了新型DIA蛋白质组学数据处理软件Diamond,使得具有不同需求的用户能够一站式完成基于肽段库、无肽段库、肽段中心打分以及谱图中心打分四种分析,并且完全无需繁琐的软件环境配置工作。由于Nextflow框架的高效并行与合理的进程管理,Diamond在大规模数据集上的计算性能远远超过了普通程序脚本,在大规模临床定量蛋白质组学研究中具有广阔的应用前景。

 


Top