如何解释weka分类?

我们如何使用朴素贝叶斯来解释weka中的分类结果?

平均值,标准差,权重和精度是如何计算的?

kappa统计,平均绝对误差,均方根误差等是如何计算的?

什么是混淆matrix的解释?

以下是使用10倍交叉validation的朴素贝叶斯分类器的一些示例输出。 那里有很多信息,你应该关注什么取决于你的应用程序。 我将解释下面的一些结果,让你开始。

 === Stratified cross-validation === === Summary === Correctly Classified Instances 71 71 % Incorrectly Classified Instances 29 29 % Kappa statistic 0.3108 Mean absolute error 0.3333 Root mean squared error 0.4662 Relative absolute error 69.9453 % Root relative squared error 95.5466 % Total Number of Instances 100 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.967 0.692 0.686 0.967 0.803 0.709 0 0.308 0.033 0.857 0.308 0.453 0.708 1 Weighted Avg. 0.71 0.435 0.753 0.71 0.666 0.709 === Confusion Matrix === ab <-- classified as 59 2 | a = 0 27 12 | b = 1 

正确和不正确的分类实例显示正确和不正确分类的testing实例的百分比。 原始数字显示在混淆matrix中, ab代表类别标签。 这里有100个实例,所以百分比和原始数字加起来, aa + bb = 59 + 12 = 71, ab + ba = 27 + 2 = 29。

正确分类的实例的百分比通常被称为准确度或样本准确度。 作为一个性能估计,它有一些缺点(没有机会纠正,对类分布不敏感),所以你可能会想看看其他一些数字。 ROC面积或ROC曲线下的面积是我的首选量度。

Kappa是分类和真实类别之间一致的机会纠正措施。 这是通过将偶然期望的协议从观察到的协议中除去,并除以最大可能的协议来计算的。 一个大于0的值意味着你的分类器比机会做的更好(它应该是!)。

错误率被用于数字预测而不是分类。 在数字预测中,预测不仅仅是正确的错误,错误的程度也是巨大的,这些措施反映了这一点。

希望这会让你开始。

为了详细说明michaeltwofish的答案,关于剩余值的一些说明:

  • TP率 :真正的正确率(例子正确地分类为一个给定的类)

  • FP率 :误报率(错误分类为给定类别的情况)

  • 精确度 :真正属于某个类的实例的比例除以被归类为该类的实例总数

  • 回想一下 :分类为给定类别的实例的比例除以该类别中的实际总数(相当于TP率)

  • F-Measure :精确度和召回率的组合计算为2 * Precision *召回/(Precision + Recall)

至于洛克区的面积测量,我同意迈克尔·韦弗这是威卡输出的最重要的价值之一。 “最优”分类器的ROC面积值将接近1,0.5与“随机猜测”相当(类似于Kappa统计量为0)。

应该指出的是,在解释结果时需要考虑数据集的“平衡”。 不成比例的大量实例属于某一类的不平衡数据集可能会导致较高的准确率,即使分类器未必特别好。

进一步阅读:

一些algorithm给出了“50050000”的每个值,而对于其他分类器,这些值大约是49.7,87.4,98.2等等。