可变剪接(alternative splicing)是一种广泛存在的转录后调控机制,可以产生多种不同的mRNA转录本异构体(isoform)。准确鉴定转录本种类及其丰度对于研究可变剪接的生物学功能至关重要。新兴的长读长测序技术(long-read sequencing, LRS)能够产生几千到几万个碱基的长读段,有望突破短读长测序在精确鉴定转录本方面的瓶颈。
近年来,多种旨在利用LRS数据重建转录本结构的新的生物信息学工具应运而生。这些算法可分为两大类: 引导(guided)模式和非引导 (unguided)模式。引导模式算法需要利用已知的参考基因注释来指导转录本鉴定过程, 而非引导模式则完全基于序列本身进行de novo重建, 无需提供参考基因注释。不同工具还采用了诸如构建剪接图、利用支持读段丰度、机器学习模型等多种策略来提高算法准确性。其中, TALON和FLAMES采用引导模式, Freddie、TAMA和UNAGI为非引导模式, 而StringTie2、FLAIR、IsoQuant和Bambu则同时包含两种模式的算法。但由于缺乏系统性的评估, 这些工具在不同数据类型和影响因素下的表现仍未可知。
2024年5月10日,Nature Communications在线发表了浙江大学爱丁堡联合学院(ZJE)刘琬璐研究员课题组关于长读长测序mRNA异构体检测的最新研究进展Comprehensive assessment of mRNA isoform detection methods for long-read sequencing data。
该研究通过整合多种模拟与实验数据, 涵盖大量生物学场景,对九种长读长mRNA异构体检测工具进行了全面深入的评测。结果显示IsoQuant总体上是目前表现最优秀的转录本鉴定工具, Bambu和StringTie2也有不俗表现。此外, FLAMES和FLAIR在功能上较为完善, 支持上游与下游的整体分析。作者同时分析了各算法的优缺点, 并对其改进提出建议, 为未来的方法开发指明了方向。该研究为充分发掘长读长技术解析转录本复杂性奠定了基础。作者同步开发了YASIM(Yet Another SIMulator)的长读长RNA测序模拟器。YASIM能模拟新的可变剪接事件和真实的基因表达谱, 并能够精确控制模拟数据中的测序深度、转录本复杂度、读段完整度和测序精度等参数, 为全面评估不同工具的鲁棒性奠定基础。
首先,作者利用自行开发的YASIM模拟器生成多种条件下的模拟数据,评估了不同算法在处理不同测序深度、转录本复杂度、读段完整度、测序精度、参考注释完整度时的精确度(precision)和敏感度(sensitivity)。结果显示, 引导模式下的IsoQuant和Bambu在处理模拟数据时精确度最高; IsoQuant和StringTie2引导模式的敏感度最佳。大多数算法在读段较短或测序精度较低时表现会受损。
接下来,作者分析了16个已发表的spike-in对照数据集,结果表明引导模式的算法表现优于非引导模式,IsoQuant、Bambu和StringTie2引导模式总体最佳。作者还收集了来自四个物种的25份真实实验数据进行进一步检测分析,结果再次证实IsoQuant和Bambu引导模式对已知转录本的鉴定准确率最高。此外,作者还对不同软件鉴定出的差异转录本使用情况(Differential isoform usage)进行下游分析, 发现引导模式工具结果最为一致, IsoQuant和Bambu表现最佳。根据StringTie2和Bambu基于人胚胎干细胞系长读长测序数据的mRNA异构体检测结果, 作者还通过RT-qPCR实验成功验证了RPL39L基因的一个新的异构体。
最后,计算效率分析显示StringTie2运行速度最快、内存占用最少,FLAMES、FLAIR、Bambu及IsoQuant也表现不错。
综上所述,该研究通过整合模拟数据、对照数据和实验数据对现有主要的长读长转录本识别工具进行了系统性评估。该项评测工作为用户提供了工具选择的参考, 同时也指出了各种算法的优缺点, 有助于长读长数据mRNA异构体检测算法的进一步优化以及促进长读长技术在解析转录组复杂性方面的应用。
ZJE 2019级生物信息学专业本科生(现UC Berkeley博士生)苏雅琪为本文第一作者,2019级生物信息学专业本科生(现爱丁堡大学硕士生)俞哲健为本文第二作者,刘琬璐研究员为本文通讯作者。ZJE生物信息学专业博士生金飔倩、薛子为、郭奕鑫,ZJE生物信息学专业硕士生陈心怡,浙江大学医学院博士生艾志鹏,ZJE本科生袁睿鸿,ZJE陈迪研究员,浙江大学医学院梁洪青研究员,浙江大学伊利诺伊大学厄巴纳香槟校区联合学院(ZJUI)刘佐珠研究员也参与了此项研究。
原文链接:https://www.nature.com/articles/s41467-024-48117-3