代谢组学的数据分析策略

时间：2022-03-12 理论教育版权反馈

【摘要】：代谢组学分析产生的是信息含量丰富的多维数据，因此充分运用化学计量学理论和多元统计分析新方法，对采集的多维海量原始信息进行压缩降维和归类分析，从中有效挖掘出有用信息，对代谢组学分析结果的最终解释至关重要。在代谢组学研究中，将代谢产物信息进行判别并分类，以达到发现生物标记物的目的。在代谢组学研究中，PCA和PLS-DA方法是最为常用模式识别方法。

代谢组学分析产生的是信息含量丰富的多维数据，因此充分运用化学计量学理论和多元统计分析新方法，对采集的多维海量原始信息进行压缩降维和归类分析，从中有效挖掘出有用信息，对代谢组学分析结果的最终解释至关重要。

在代谢组学研究中，将代谢产物信息进行判别并分类，以达到发现生物标记物的目的。数据分析的主要手段是模式识别，通常包括监督和非监督两种分类方法，非监督分类主要用于从原始图谱信息或预处理后的信息中对样本进行归类，并采用相应的可视化技术直观的表达出来，不需要有关样品分类的任何背景信息。而监督分类用于建立类别间的数学模型，使各类样品达到最大的分离，并利用建立的多参数模型对未知的样本进行预测，最终达到由已知推导未知的目的。

目前在代谢组学中运用较多的非监督分类方法有主成分分析(principal components analysis，PCA)、非线性影射(NLM)、层次聚类分析(HCA)等，监督分类方法有偏最小二乘法-判别分析(PLSDA)、k-最近邻法(KNN)、神经网络(NN)等。监督分类方法主要是基于PCA、偏最小二乘法(PLS)、神经网络的改进方法，常用的有类模拟软独立建模和偏最小二乘法-判别分析(PLS-DA)等。在代谢组学研究中，PCA和PLS-DA方法是最为常用模式识别方法。

需要提出的是，以上的这些分析平台输出的数据需要先经过预处理，才能用于模式识别的分析。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈