经典重读丨Nat Methods基于质谱的代谢组学
基于质谱技术的代谢组学可以同时检测和量化数千种代谢物特征。然而,由于代谢物的化学性质复杂和动态范围大,导致定性定量复杂。真实样本往往是复杂体系,存在离子抑制、同分异构等问题。为了获得高质量的代谢组学数据,德国马普研究所的Saleh Alseekh提出了一份指南,涵盖样品制备、生物重复、定量分析、信号鉴定等。相关研究结果于2021年7月发表于Nature methods,文章标题为“Mass spectrometry-based metabolomics: a guide for annotation, quantification and best reporting practices”,原文链接为:https://doi.org/10.1038/s41592-021-01197-1。
代谢组学目前广泛应用于植物、微生物和哺乳动物研究,是对基因组、转录组和蛋白质组的补充研究,是一种常用的实验体系生物学工具。预计生命体系中存在超过100万种代谢物,单个物种中约有1000~40000种。然而单一检测方法所能覆盖的代谢物数量十分有限,目前已经开发了许多不同的提取技术、分析方法的组合,来尝试尽可能多的提高代谢物覆盖率。同时对代谢组学数据的不同注释,这使得代谢组数据的多样化极高,不利于实验室数据的相互比较。因此,需要对代谢组数据进行标准化,作者描述了基于气相色谱/液相色谱-串联质谱技术的代谢组学方法指南,涉及样品制备、生物重复、定量分析、信号鉴定等,以便不同实验室之间可对数据进行比较和分享。
样品采集、储存和代谢物提取
代谢组学实验的第一个关键步骤是样本收集,理想的淬灭溶剂应能够快速停止生物代谢过程并不影响后续代谢物的高效提取。常见的样品类型包括细胞、组织等代谢高度活跃的系统,还有血清、血浆或尿液等生物体液样本,每种样本类型都需要特定的采集、淬灭和提取方法,并没有通用型的方法。淬灭过程需要完全终止所有酶和化学活性,避免干扰当下的代谢物水平。例如,组织样本应在快速切取后在液氮中速冷,随后储存于−80°C环境。
在代谢物的提取过程中,还需注意若干问题。比如当研究目标为强挥发性的代谢物时,不能对样本进行冷冻干燥;样品不能储存在0至40°C下,否则物质可能会浓缩在残留水相中;在分析前尽可能短的时间内储存完全干燥的残留物。此外,必须确保在解冻过程中样本中新陈代谢保持淬灭状态,防止某些代谢物的消耗或转化,出现新的化合物或分解产物。培养基需要多个洗涤步骤来减少质谱检测过程中的离子抑制影响。
样本重复和随机化
代谢组学研究中,为保证结果的准确性和代表性,需要设计生物重复、技术重复和分析重复。生物重复就是常说的每组个数N值。技术重复是指对同一个样本进行多次相同的实验操作步骤和检测,主要是对整个实验过程的评估,评价批次实验之间的误差。分析重复是指重复对完全相同的提取后样品进行测定,主要用于评估仪器的稳定性。
生物重复最为重要,数据结果体现了样本个体间差异和技术重复差异,当生物重复的差异远大于技术重复时,应以生物重复为主。生物重复应至少设置四个,理想的情况是越多越好,具体的重复数量取决于实验条件、统计需要和实验方差。
在整个代谢组学实验中,检测时对生物样品进行时空随机化同样重要。如果以非随机顺序分析一组样本,治疗和对照样本或时间点可能最终在不同的条件下进行测量。因此,样本年龄或仪器性能的变化可能会混淆解释,掩盖了样本组之间的生物差异。因此,在大规模代谢组研究中,需要使用质量控制样品来监测仪器性能和稳定性,从而保证数据质量。
定量分析
基于LC-MS和GC-MS方法进行的非靶向代谢组学,获得的数据通常是相对定量的。这是由于复杂混合物中不同代谢物的电离效率不同,不同代谢物的色谱-质谱峰的相对强度(峰面积)与绝对浓度不直接相关。代谢物的相对浓度可以反应变化的方向(变大或变小)。然而,代谢物的绝对浓度在确定酶结合位点、代谢反应的热力学和分子动力学研究中有更大的实用性。
当然,代谢组学实验中使用标准曲线来确定信号强度和浓度的线性关系,来实现代谢物的绝对定量。但是由于复杂混合物中许多代谢物的关系是非线性的,这使得获得数千种标准曲线来定量不可行。目前,常使用的定量方法是内标法定量或外标法定量。
代谢组学定量分析的另一个问题是样本的量化单位。组织通常按鲜重或干重,体液通常按体积,细胞通常按蛋白质或细胞计数来计算。
回收率实验
回收率实验是指将标准化合物添加到初始提取溶剂中,以评估提取、储存和处理过程中的损失,并可证明数据的准确性。然而,在代谢组学实验中,由于缺乏标准品以及有些分析物是未知的原因,回收率实验难以实现。因此,出现一种替代方法——提取重组,即将新的组织样本的提取物通过与已知特征的参照样本(如大肠杆菌、拟南芥或人类体液)的结合来表征。
对于已知的代谢物,建议对每种新的组织类型或物种进行回收率实验,70~130%的回收率是可接受的范围,回收率超出此范围的代谢物应进行重新评估。
离子抑制
离子抑制是LC-MS分析中的一个普遍问题,因为基质效应影响共洗脱分析物的电离,影响定量的精度和准确性。评估离子抑制潜在影响的最佳方法是在重组实验中混合两种独立的提取物,并评估检测到的代谢物是否可以定量回收。
减小离子抑制的方法:(1)改进样品制备方法,优化样本前处理步骤,包括超声、溶剂选择、过滤、离心和蛋白沉淀等,其中选择合适的吸附剂进行固相萃取(SPE)是减少基质效应的有效方法。(2)选择合适的色谱条件,根据样品类型和分析物性质,选择合适的色谱柱,调节色谱条件,改变流动相的组成或梯度条件,使得感兴趣的分析峰不在抑制区域洗脱。(3)选择合适的离子源,大气压化学电离(APCI)比电喷雾电离(ESI)更不易受到基质效应的影响,正离子模式下化合物电离比负离子模式更容易出现离子抑制。
信号鉴定
基于质谱技术进行非靶向代谢组学实验时,代谢物的鉴定仍是很大的挑战。高分辨质谱可检测到10000-100000个特征峰,除了准分子离子峰外,还经常出现加和离子峰和干扰离子峰。造成对离子峰误判的原因包括以下几个方面。(1)同分异构体的存在:如己糖磷酸盐/肌醇磷酸盐、柠檬酸盐/异柠檬酸盐、葡萄糖/果糖、丙氨酸/肌氨酸等,高分辨率质谱难以区分这些异构体。(2)重叠化合物的存在可能会阻碍某些代谢物的检测:当色谱无法有效分离分析物时,分辨率不足的情况下会导致化合物信号重叠。(3)源内降解物的形成:在ESI电离中,由于水、二氧化碳或磷酸氢的损失、复杂的分子重排和其他离子的附着从而产生副产物离子。源内降解降低了代谢物母离子的信号强度,产生的碎片离子可能会干扰其它共洗脱化合物的分析。
此外,非靶代谢组学分析的一个关键方面是峰值过滤。此类研究中的代谢组学数据集包含大量无效信息,这些特征可能会阻碍后续的统计分析,可通过减少信号和噪声的数量以及注释常见同位素和加合物来改善和清洁数据。已有多种软件工具可根据给定数据集的特定特征进行数据过滤。
报告注释
为了在不同实验室之间进行数据比较,方便其他实验人员进行重现实验,需要对样品制备和分析程序进行详细描述,包括前处理方法、色谱和质谱参数。
(1)色谱:流动相组成、色谱柱品牌和型号、柱温、流速和进样量;
(2)质谱:离子源和检测模式类型、MS方法、扫描次数和速度以及MS/MS参数,包括分辨率设置和用于碎裂的能量。
作者提供简化、更简单的报告注释示例(下图),以确保广泛的适用性和相关性。
总结
本研究提出了提高代谢数据集质量和建议,以满足跨实验室可比的需要。这些建议包括样品制备、生物重复、定量分析、信号鉴定、报告注释等形成指南。指南将使读者能够评估所报告数据的质量,使研究人员能有一个简单的途径来获得所需的信息并注释自己的实验结果,此外还可以使多个实验室的数据更容易相互比较。这些都有助于代谢组学的发展。