常见问题

Dr.Tom约 12 字小于 1 分钟

常见问题

常见问题

分析问题

1.如何理解 CCA 分析的综合变量?

为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量 U1 和 V1 (分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

2.差异物种与差异代谢物的随机森林分析重要性得分有两个,MeanDecreaseAccuracy 和MeanDecreaseGini 的结果是不一样的,结果该如何选择?

Mean Decrease Accuracy 图表示模型通过排除每个变量损失了多少准确度。 准确性受到的影响越大,变量对于成功分类就越重要,变量按重要性降序排列。 Mean Decrease Gini即基尼系数的平均下降是衡量每个变量如何对生成的随机森林中的节点和叶子的同质性做出贡献的量度。 平均下降准确率或平均下降基尼分数的值越高,变量在模型中的重要性越高。如果要单独区分哪个更可靠,测量的特征尺度和/或类别数量不同,Mean Decrease Accuracy比 Mean Decrease Gini 指数更可靠。

3.为什么单组学和合并组学随机森林和 PLSDA 的 ROC 曲线下面积都等于1?

因为这里单组学和合并组学数据 ROC 分析用的是所有的差异结果,在各组样本数量较少的情况下,模型比较容易区分开比较组和对照组,所以单组学数据建模和合并组学建模都可以有较好的效果。

4.为什么不用代谢物name画图?

因为代谢物 name 通常比较长,用代谢物 name 会导致图片畸形。

5.为什么联合分析需要样本进行一一对应?

为了更好的挖掘组学间的内在联系。