近日,我院欧阳宏伟课题组与刘琬璐课题组在iScience杂志发表题为“MSdb: an integrated expression atlas of human musculoskeletal system”的研究论文。该研究利用生物信息学计算工具和云数据库平台,构建了首个大规模、标准化、可交互的人体肌肉骨骼系统基因表达数据库MSdb,并利用数据库收集的单细胞数据,开发了基于变分自编码器(Variational autoencoder,VAE)深度学习架构的单细胞数据整合分析算法scVAE,为肌肉骨骼系统高通量测序数据的深入挖掘和高效利用提供了有力的工具。
原文链接:https://doi.org/10.1016/j.isci.2023.106933
数据库链接:https://www.msdb.org.cn
肌肉骨骼系统疾病,包括骨关节炎、类风湿性关节炎、腰背痛和骨折等患病率随着人口老龄化日益升高,在全球范围内造成巨大的社会和经济负担,亟待开发新的诊疗手段以实现肌肉骨骼系统疾病的有效治疗。近年来,大量高通量测序数据(如bulk RNA-seq、microRNA-seq等)的产生促进了肌肉骨骼发育和疾病机制的研究,为相关疾病新型诊疗方法的开发奠定了基础。然而,高通量测序数据通常散在分布于不同数据库、存在较大的批次效应,给缺乏生物信息学分析经验和资源的基础和临床研究者带来挑战,阻碍了肌肉骨骼系统组学数据的深度利用。为解决上述问题,领域迫切需要一个整合的和使用友好的肌肉骨骼系统组织的组学数据库。
MSdb数据库收集了包括骨、软骨、肌肉、肌腱、椎间盘等人体运动系统主要组织细胞在内的33种疾病、3610个数据集,包含超过280万个单细胞数据。作者对不同数据库来源的元数据进行了统一筛选和整理,重点呈现有助于用户判断数据集临床意义和数据质量的相关信息,使用户能够更加高效地获取样本信息。同时,作者还开发了用户友好且功能丰富的在线分析及可视化网页,主要包括以下四个功能:数据浏览、数据可视化、数据整合和数据分析(图1),这些功能为科研人员更好地浏览和分析数据提供了便利的工具。
图1 人体肌肉骨骼系统基因表达数据库介绍。
从单细胞角度解析运动系统发育和病理机制已成为近年来领域的前沿热点。随着单细胞测序(single-cell RNA-seq, scRNA-seq)数据通量的不断提升,如何对大规模、高维度的单细胞数据进行有效特征融合并进行整合分析存在较大挑战。本研究基于变分自编码器(VAE)深度学习架构,开发了人体肌肉骨骼系统单细胞转录组数据整合分析算法scVAE(图2)。利用scVAE算法,研究者对不同研究来源的健康、骨关节炎、类风湿性关节炎和未分化性关节炎患者滑膜组织单细胞转录组测序数据进行整合分析(图3),发现类风湿性关节炎中存在特异的CD74+HLA-DRA+炎性成纤维细胞亚群,提示该亚群在疾病中的潜在作用,深入研究该细胞亚群的功能将为RA的病理机制提供新的见解。
图2 scVAE算法开发和整合分析效果评价
图3 scVAE整合分析揭示类风湿性关节炎特异的炎性成纤维细胞亚群
本文第一作者为ZJE博士研究生田若楠,薛子为和阮登峰为共同第一作者,通讯作者为ZJE欧阳宏伟教授、刘琬璐研究员和林俊鑫助理研究员。该课题得到了国家自然科学基金创新群体项目(T2121004)、中央高校基本科研业务费专项资金和阿里云的支持。