剑桥开发基于SwinTransformer的AI工具,可快速识别内质网的结构
在蛋白质合成及转运中,内质网发挥着不可或缺的作用。其既是蛋白质合成和加工的场所,又能与许多细胞连接形成细胞器互作网络。因此,内质网在细胞的生理过程中占据重要的地位,它的结构和功能失调与许多疾病的发生发展有重要关联。
对内质网进行结构分析,一直是该领域的研究难点。这是因为内质网的结构非常复杂,如单个细胞中的内质网就可能包含三千多个管状结构和相似数目的节点,仅凭人眼无法完成内质结构的分析工作。传统的分析工具主要根据图像信号进行阈值分析,但这种方法并不能真正识别出内质网的结构特征。
(来源:卢萌)
近期,来自英国剑桥大学的研究团队,开发了一个名为 ERnet 的 AI 分析工具,能够定量地分析内质网的结构和形变。
五年前,当我们团队在研究内质网和溶酶体的互作关系时,发现缺少一个好的工具,能够量化分析内质网的结构,并进行相应的定量统计。因此,我们就想开发一个快速、精准的识别工具。谈及 ERnet 的开发初衷,剑桥大学高级研究员卢萌表示。
图丨卢萌(来源:卢萌)
据了解,该工具的早期版本是基于卷积神经网络的方法构建的。自然语言处理模型架构 Transformer,尤其是 Swin Transformer 出现以后,该团队便以 Swin Transformer 为基础,重新构建了 ERnet,从而极大地优化了模型的训练过程,以及提升了识别和分析水平。具体来说,相较于传统的内质网识别工具,ERnet 主要具备以下几方面优势。
首先,在模型设计上,ERnet 是一个基于 SOTA 模型框架的快速、高通量的分析工具,通过训练获得的结构知识精准识别并分割出内质网的不同结构,而不是基于信号阈值的图像分割方法。这一框架具有极佳的升级空间,为以后扩展为分析多模态、跨尺度数据的大模型奠定了基础。在被问及为何选择 Swin Tranformer 作为模型框架时,卢萌解释道。
其次,传统的分析工具只包含内质网结构识别和图像分割的功能,而 ERnet 在分割的基础上又增加了分析模块,能够运用图论来获得内质网的拓扑结构图,并且给出多参数的定量结果,统计内质网的结构变化、拓扑网络的构造以及内质网的连接性。
在多参数结果中,连接性是衡量内质网结构和生理状况的一个非常关键的指标。正常的内质网通常是一个高度连接的网络,如果内质网发生病变,网络就会破损或断裂。所以,统计出内质网的连接性或碎片化程度,对于我们衡量和评价内质网的结构,以及整个细胞的健康状态来说十分重要。
ERnet 作为一个高通量、精准的高通量分析工具,能将描述性的图像转化为定量化的数据,帮我们从多个角度研究各种条件下内质网的结构变化,包括肉眼无法分辨的细微变化。卢萌解释道。
由于内质网比较脆弱,因此如何选取一个有效的标记方法,既能最大程度地减少对内质网结构的改变和干扰,又能得到高质量的成像结果,是该团队在研究过程中面临的一大难题。在这方面,他们花费了很长时间,才得以攻克问题。工具构建完成后,便是开展验证工作。该团队既使用了来自不同细胞类型的各种内质网成像方法获得的数据,又使用了人工合成的内质网结构的真实图像,以充分验证 ERnet 的有效性和可靠性。最终结果显示,ERnet 的效果良好。
除了技术突破以外,该团队也取得了重要的科学发现,即通过 ERnet 发现了一种新的内质网结构——片上管状内质网(sheet-based tubules)。
经典的内质网结构模型认为内质网由片状和管状区域构成,两者形成连续的膜结构,但各自区域有严格划分且不重合。而该团队通过该研究发现,管状内质网还广泛附着在片状结构上,并进行持续快速的形变和运动。这一发现首次证明了片状和管状内质网在结构上有广泛的交集。
由于不同内质网的结构区域行使不同功能,也暗示了管状内质网的功能区域并不局限在细胞外围,它可通过附着在片状区域一直延伸并连接到核膜。上述发现更新了相关领域对内质网结构、分布和动态的认识,在科学上具有重要的创新意义。
图丨代表性图像展示了片上管状内质网的动态变化(1.5s/frame)。(来源:Nature Methods)
2023 年 3 月 30 日,相关论文以《ERnet:一种用于内质网拓扑结构语义分割和定量分析的工具》(ERnet: a tool for the semantic segmentation and quantitative analysis of endoplasmic reticulum topology)为题在Nature Methods上发表[1]。
图丨相关论文(来源:Nature Methods)
卢萌为该论文的第一作者,剑桥大学克莱门斯·F·卡明斯基(Clemens F. Kaminski)教授担任论文的通讯作者。
虽然该研究是一项基础研究,但其最终目的是服务于生物学应用。卢萌表示,希望 ERnet 未来能够在药物筛选和基因筛选上发挥作用,为相关领域的研究者提供快速、可靠的分析结果。
据介绍,卢萌博士将以 ERnet 为基础,逐步发展出一个可以深入解析细胞结构和功能的关系的工具。目前,识别内质网的结构特征只是第一步,而接下来的计划包括将分析能力从二维提升到三维,并且加入时间序列。
除了内质网,其他重要的细胞器,包括线粒体、溶酶体等结构也将逐步被整合到这一工具中,实现多细胞器互作网络的定量分析,不仅绘制出细胞器互作时空图谱,并且揭示出各细胞器结构、动力学、胞内分布以及功能的相互关系,最后应用于生物医学研究中,阐释多细胞器互作在不同疾病中的作用机制。
对于未来的研究,卢萌博士这样说道:从学科发展的角度而言,我们的领域正在逐步构建一个多模态跨尺度的大模型,将整合光、声、电、磁、核素、电子等成像模态,提供从埃米到米,跨越 10 个空间尺度,从微秒到一年,跨越 10 个时间尺度的数据集,打造可以实现多模态智能分析的工具。
现在北大建设的国家生物医学成像科学中心,正引领了这一领域的未来发展方向。未来如果结合文本语言分析和训练,我们期待该模型能够真正理解细胞各个尺度的时空动力学和功能,解析其在生理学和病理学上的相关性和因果性(如功能结构失调和病变)。
百川异源,皆归于海,细胞生物学在近代以来发展出了越来越多,越来越深入的分支,各类技术和方法让我们在各种模态和尺度上研究细胞,而现在通过 AI,我们有机会将所有分支都整合到统一的大框架下,在这个大模型中对各类不同类型的数据进行分解与重组,发现不同数据内部的结合点进行数据连接,从而打破壁垒,实现不同数据和知识的真正融合。
我们现在正处于一个非常激动人心的时代,AI 的发展已经从过去的量变走向了如今的质变。在理解大模型内部的知识网络结构的前提下,将自己所从事的研究领域和大模型结合起来,并基于通用大模型,训练具备所在领域私有数据的专用大模型,是一个很值得研究的问题。
我认为这将是未来的大势所趋,也会给各个科学学科的发展带来重要影响。谈及对AI+Science的看法,卢萌分享道。
参考资料:
1.Lu, M., Christensen, C.N., Weber, J.M. et al. ERnet: a tool for the semantic segmentation and quantitative analysis of endoplasmic reticulum topology.Nature Methods20, 569–579 (2023). https://doi.org/10.1038/s41592-023-01815-0