2024年11月23日,欢迎来到博莱克科技(武汉)有限公司!
新闻中心
您现在的位置:首页 >> 关于我们

新文速递丨J Hazard Mater污水样本非靶检测与快速分析

 前言 

杀虫剂、药物、工业化学品等环境污染物在水样中无处不在,尽管浓度很低,但其高毒性仍然对生活在水系统中的生物和人类社会构成了极大威胁。污染物检测和鉴定往往通过液相色谱与高分辨率质谱联用的非靶向分析(NTA)进行。但一个复杂的环境或生物样品会产生上千个特征,质谱会筛选出大量候选化合物,对候选化合物的优先级排序极其重要也极具挑战性。


2023年4月,复旦大学环境科学与工程系方明亮教授团队与新加坡南洋理工大学李光前医学院王玉兰团队在《Journal of Hazardous Materials》期刊上发表题为“An automated toxicity based prioritization framework for fast chemical characterization in non-targeted analysis”的研究成果。该研究使用光谱匹配、保留时间预测、毒性预测和ToxPi 评分进行计算融合,通过自动化 R 包工作流程 NTA prioritization.R 简化了费力的优先级排序,以减少特征数量,从而可以快速识别出对环境或人类构成风险的污染物。原文链接:https://doi.org/10.1016/j.jhazmat.2023.130893。


 研究亮点 

1)使用组合算法(多个过滤器条件)对污染物进行优行级排序

2)光谱匹配、保留时间预测、毒性预测的集成式工作流程

3)使用R自动化排序优先级,极大提高效率

4)能对污水样本中约7000种候选污染物进行优先级排序



 研究思路 

作者建立了如图1所示的工作流程包括(A)使用数据非依赖采集(DIA)模式通过 LC-HRMS 分析样品,(B)对采集后的原始数据进行解卷积,并通过实验或计算机质谱库搜索生成候选列表,(C)使用随机森林预测模型预测候选化合物的保留时间,根据用户定义的光谱匹配分数和保留时间预测阈值,候选化合物被优先划分为4个级别(RT-MS/MS水平1-4),(D)根据 EPA TEST 软件预测用户定义的6个端点毒性阈值和 ToxCast毒性数据库搜索的ToxPi 评分,候选化合物被优先划分为3个级别(毒性水平1-3),(E)最后通过结合 RT-MS/MS 水平和毒性水平,将候选化合物按优先级降序排列为5个等级。


图1基于 NTA 的优先级排序工作流程


首先,作者将获取的原始数据在 Waters Progenesis QI 软件的协助下分六个步骤进行预处理,如图2所示:(A)正模式下的峰提取(B)峰比对(C)解卷积(D)多变量分析(E)Progenesis MetaScope 的谱库搜索和 MS/MS 谱图匹配(F)建立包含化合物名称、化合物ID、中性质量、m/z、保留时间等信息的化合物候选列表。

图2对原始数据预处理获取候选列表的工作流程

接着,作者使用基于保留时间和分子特性以及分子结构之间的定量结构保留关系(QSRR) 的随机森林回归模型预测候选化合物的 RT。将146 种化合物的实测保留时间根据75:25的比例进行模型训练和测试,使用基于R平台的化学开发工具包(rCDK),基于简化的分子输入线输入系统(SMILES)计算分子描述参数。SMILES被解析后用于计算每个化合物286个化学描述参数,通过消除空值、常量值和高度相关的描述参数(R2>0.9),剩余的166个化学描述参数导入到建模功能中,用于超参数优化。作者使用递归特征消除和10倍交叉验证来优化描述参数的数量,最终根据均方根误差(RMSE)最低选择了25个最重要的描述参数用于模型训练,在模型训练期间使用了10 倍交叉验证提供更可靠的预测。


最后,作者使用EPA TEST和ToxCast对主要环境化学品进行毒性预测,如急性毒性、致癌性、生殖毒性和其他对水生环境的毒性。测试毒性包括FMLC50DMLC50TPIGC50ORLD50、DT、AM、ToxPi。作者使用的数据库中六个不同终点的毒性是实验测定和计算机预测毒性的整合,整体的预测准确度在0.62-0.79。


 研究结果 


选化合物列表的数据预处理

作者根据图2所示的研究思路从预加标污泥水样品中发现了137个与对照组有显着差异的峰,并进行了多变量分析(图2D)。使用QI中的EPA ToxCast、EPA DSSTox、NIST、NIST Spectral、NIST MS/MS、MoNA数据库进行匹配分析,不同数据库匹配到的候选化合物数量不一致,未匹配到的光谱则用计算机预测MS2光谱(图2E-2F)。匹配时根据质量误差、同位素分布相似性和碎裂谱图评分,按照一定的比例加权求得最终得分。作者建立了一套自动化工作流程整合来自不同数据库的所有候选化合物,对同一峰值具有相同 SMILES 的候选化合物被整合到最终列表中。实现了最初的 6982 个候选化合物被缩减为 4185个,以进一步确定优先顺序。



用随机森林模型进行RT预测

基于之前研究的模型,通过随机森林算法进行特征选择建立QSRR 的线性回归模型,在这项研究中,作者进一步应用随机森林算法来预测保留时间,开发了一个用于特征选择和超参数优化的自动化工作流程。选择了 146 种 FDA 药物进行模型训练,以预测未知化合物在反相 LC 系统中的保留时间。预测模型在测试数据中的线性相关性 R2 = 0.86 (= 2.4e-11),平均绝对误差 (MAE) 为 1.00 分钟(图3A)。进一步对 28 种化学标准品的实验保留时间进行评估,预测显示出良好的准确性,中位预测误差为 1.11 分钟,平均预测误差为1.14 分钟(图 3B)。



通过 RT 预测和 MS/MS 光谱匹配确定优先级


在这项研究中,作者通过 MS/MS 光谱匹配分数和保留时间预测,提出了一个将可能的候选化合物初步划分为 4 个 RT-MS/MS 级别的优先级程序。对于保留时间预测,作者将阈值ΔRT定义为实验保留时间和预测保留时间之间的差异,由模型的最大预测误差决定,在该研究中为1.0分钟。MS光谱匹配的得分范围从0到60,将得分阈值设置为30、35和40,从而将候选化合物分为四类,合并的分类级别见图3C。如图3B所示,通过文库搜索RT=9.0分钟的峰值来获得四个候选化合物,通过计算ΔRT和MS光谱匹配得分,a、b、c、d四个候选化合物分别被归为了RT-MS/MS 1级、2级、3级、4级。作者将这种优先级排序策略应用于污泥水样本的候选列表,之前的4185个候选化合物,其中1821、1382、728、253个候选化合物分别在RT-MS/MS 1级、2级、3级、4级,还有1个候选化合物不可用于RT预测。


图3保留时间 (RT) 预测模型开发流程


使用六个毒性终点和ToxPi评分进行毒性优先级排序

为提高有毒化学品的覆盖率,作者引入了6个关键毒性终点和基于ToxCast数据库的ToxPi评分在R程序中进行应用。用户可以根据其主要风险问题从任何毒理学终点提取数据。ToxCast 数据库中有 8845 种化合物具有可用的毒性。通过毒性排序,作者将候选化合物分为 3 个毒性水平:1 级至 3 级(图4B)。为了演示作者根据可用的毒性终点 ORLD50对 2779个候选化合物进行了优先排序,ORLD50 的计算结果如图 4B 所示,大多数候选化合物在此毒性终点显示中等毒性,范围从1到5.06。为了验证,作者添加了28个化学标准品,包括不同毒性的农药,并在候选名单中发现了21种添加的化学物质。敌敌畏和氰草津被列为1级毒性,其余加标的化合物被归类为2级毒性(图4C)。




图4毒性水平及毒性水平排序示例


结合毒性水平和RT-MS/MS水平确定最终优先顺序

作者进一步将毒性水平与RT-MS/MS水平相结合,以提供最终的候选优先顺序列表。其目标是突出候选化合物中的有毒化合物。根据作者的算法候选化合物被划分为5级:1级到5级(图5A),例如1级候选化合物具有毒性水平1级和RT-MS/MS水平1级。基于作者的算法,有毒候选化合物可以根据其识别置信度进行优先排序,以便进一步验证。

作者以ORLD50终点毒性为例,根据RT-MS/MS水平和毒性水平,从6982个候选化合物的原始列表中对2779个候选化合物进行了优先排序。另增加了28个化学标准,根据工作流程对其中的21个进行了优先排序。通过结合毒性水平和RT-MS/MS水平,敌敌畏和氰草津被列为1级候选化合物,其他化学品分别被列为3级(N=11)、4级(N=9)和5级(N=1)候选化合物(图5B)。

为进一步详细地演示优先排序工作流程,以m/z=238.0851、RT=7.6min为例演示候选化合物的优先排序(图5C)。在6982个候选化合物原始列表中,保留了具有可用碎片化分数和预测保留时间的139个候选化合物。进一步计算了毒性水平和RT-MS/MS水平,排除没有有效毒性和保留时间的候选化合物,对139个候选化合物中的78个进行了5级优先排序,其中1级、2级、3级、4级、5级分别有1个、2个、3个、36个、36个。鲜绿青霉素和3-氰基-4-联苯-乙酸因为高毒性(Tox1级)分别被列为2级和3级候选化合物,作者列举了排序最优先的5个候选化合物(图5C)。用户可以根据实际情况重新定义毒性分类的阈值,只要更适合进行化学优先排序。





图5毒性水平结合RT-MS/MS水平确定最终优先顺序示例


 全文总结 

这项研究为非靶向分析(NTA)中已知或未知化合物的鉴定提供了一种基于毒性的优先排序工作流程,可以极大地缩小数百至数千个候选化合物匹配范围。作者对非靶向数据预处理后通过随机森林模型预测化合物的保留时间,并通过结合保留时间预测、谱库搜索进行的碎片光谱匹配来提供候选化合物的优先列表。基于QSRR的保留时间预测在MS/MS光谱匹配分数之上可以显著减少候选化合物的数量,再结合化学毒性评估能够对有毒化合物进行全面的优先排序。






Copyright © 博莱克科技(武汉)有限公司 版权所有 鄂ICP备16007972号   

鄂公网安备 42018502001773号