新的基于人工智能的工具可以在大型单细胞数据集中发现罕见的细胞群

计算方法能够分析有意义的数据,否则可能会丢失在噪声中

乐动体育LDsports中国德克萨斯大学的研究人员MD安德森癌症中心开发了一种基于人工智能(AI)的工具,可以从单细胞数据集中准确识别稀有的重要生物细胞群,这些数据通常包含数千个细胞的基因或蛋白质表达数据。这项研究乐动体育LDsports中国今天发表在自然计算科学

此计算工具称为SCMER(单细胞歧管保留功能选择),可以帮助研究人员通过复杂数据集的噪声来研究可能不可识别的单元格。乐动体育LDsports中国

索桑默可以广泛用于肿瘤学及更远的许多应用,解释的高级作者肯·陈,博士。,副教授生物信息学与计算生物学,包括研究最小的残留疾病,耐药性和免疫细胞群的群体。

陈说:“现代技术可以产生大量数据,但要确定哪些基因或蛋白质在这种情况下真正重要,就变得更加困难了。”“例如,一小群细胞可能具有可能在耐药性中发挥作用的重要特征,但这些特征可能不足以将它们与更常见的细胞区分开来。在分析单细胞数据集时,能够检测这些罕见的细胞及其独特的分子特征变得非常重要。”

开发有效的方法来研究小的或罕见的细胞群在癌症研究中是直接反应之一乐动体育LDsports中国挑衅性问题2020年由国家癌症研究所(NCI)构成,指定这一重要和望远欠面的研究区。乐动体育LDsports中国员旨在解决这个问题,并使研究人员能够充分利用越来越复杂的数据集。乐动体育LDsports中国

基于数据集中包含的所有数据,而不是将单元格分类为群集的传统方法,而不是数据集中包含的所有数据,均采用无偏见的外观来检测定义独特小区组的最有意义的区分功能。这允许研究人员不仅可以检乐动体育LDsports中国测稀有细胞群,而是产生一组紧凑的基因或蛋白质,这些基因或蛋白质可以用于检测许多其他细胞。为了突出苏默的效用,研究团队将其应用于几个公布的单细胞数据集,并找到了目前可用乐动体育LDsports中国的计算方法的最佳化。

在4,500多黑色素瘤细胞的再分析中,索桑默能够利用仅75个基因的表达区分存在的细胞类型。结果还指出了涉及肿瘤发育的许多基因,并且在原始研究中未被识别出有意义的耐药性。

在近40,000个胃肠道免疫细胞的复杂数据集中,Scmmer分离的细胞仅使用250个不同的特征。该分析鉴定了在原始研究中检测到的所有原始细胞类型,但在许多情况下,进一步定义了先前未识别的稀有细胞的亚组。

最后,研究团队应用苏默在药乐动体育LDsports中国物治疗后在各种点拍摄超过1,400多种肺癌细胞。使用仅80个基因,该工具能够基于治疗反应准确地区分细胞,并指出可能的抗性抗性的新推动力。

“采用最先进的AI技术,我们开发了一种高效且用户友好的工具,能够揭示稀有细胞群体的新生物洞察力,”陈说。“Scmer提供了研究人员能乐动体育LDsports中国够将高度维度,复杂的数据集减少到具有生物学意义的紧凑型可操作特征中。”

研究人员乐动体育LDsports中国使苏米尔自由地向研究界提供。

该研究部乐动体育LDsports中国分由硅谷社区基金会(CZF2019-002432, CZF2019-02425)的陈-扎克伯格倡议捐赠者建议基金(Chan Zuckerberg Initiative Donor-Advised Fund)的人类细胞图谱种子网络(Human Cell Atlas Seed Network)提供支持;德州癌症预防研究所(RP180248, RP20乐动体育LDsports中国0520);和国家癌症研究所(U01CA247760, U24CA211006, P30 CA016672)。

除了陈之外,来自MD安德森包括生物信息学和计算生物学的研究生邵恒亮MD安德森德克萨斯州休斯顿莱斯大学计算机科学学院;Vakul Mohanty博士和Jinzhuang Dou博士,生物信息学和计算生物学;苗琦(音译)和黄跃凡(音译),是该校生物信息学和计算生物学专业的研究生MD安德森休斯顿,德克萨斯州Uthealth的生物统计数据和数据科学;和muharremmüftüoğlu,m.d.,白血病。其他提交人包括李德,莫斯顿圣路易斯华盛顿大学李鼎。休斯顿大学,休斯顿大学,博士,魏先鹏,M.D.。作者宣称没有利益冲突。