Tag: svm

文本分类的特征select与缩减

我目前正在做一个项目,一个简单的情绪分析器 ,以便在不同的情况下会有2和3个class 。 我使用的是一个语料相当丰富的语料库 (大约200.000)。 为了特征select ,我使用袋字法,为了减less独特特征的数量,由于出现频率的 阈值而消除。 最后一组特征包括大约20,000个特征,实际上减less了90% ,但是对于testing预测的预期准确性 还不够 。 我依次使用LibSVM和SVM-light进行训练和预测(包括线性和RBF内核 )以及Python和Bash 。 到目前为止观察到的最高精度 是75%左右 ,我至less需要90% 。 二进制分类就是这种情况。 对于多class培训 ,准确率降至〜60% 。 在这两种情况下,我至less需要90% ,并且不能如何增加它:通过优化训练参数或通过优化特征select ? 我已经阅读了关于文本分类中的特征select的文章,并且我发现使用了三种不同的方法,实际上它们之间有明确的相关性。 这些方法如下: 书包的频率方法(BOW) 信息增益 (IG) X ^ 2统计 (CHI) 第一种方法已经是我使用的方法,但是我使用它非常简单,需要指导以更好地使用它以获得足够高的准确性。 我也缺乏关于IG和CHI实际实施的知识,并且希望有任何帮助来指导我。 非常感谢,如果您需要任何其他信息的帮助,请让我知道。 @larsmans: Frequency Threshold(频率阈值) :我正在寻找例子中唯一词的出现次数,例如,如果一个词在不同的例子中频繁出现,它被包含在特征集中作为一个独特的特征。 @TheManWithNoName:首先感谢您解释文档分类的一般问题。 我审查和试验了你提出的所有方法和其他方法。 我发现比例差异 (PD)方法是最好的特征select,其中function单一和术语存在 (TP)的权重(我不明白你为什么标签术语频率逆文档频率 (TF- IDF)作为索引方法,我宁愿把它看作一个特征加权方法)。 正如你所提到的, 预处理也是这个任务的一个重要方面。 我使用某些types的string消除来细化数据以及形态分析和词干 。 另外请注意,我正在使用土耳其语 ,与英语相比,它有不同的特点 […]

支持向量机 – 硬性还是软性边际?

给定一个线性可分的数据集,在软边缘SVM上使用硬边缘SVM是否更好?

指点一些很好的SVM教程

我一直在努力掌握支持向量机的基础知识,并下载并阅读了许多在线文章。 但是还是无法把握。 我想知道,如果有一些 很好的教程 可以用于理解的示例代码 或者你可以想到的东西,这将使我能够轻松学习SVM基础知识。 PS:我不知何故设法学习PCA(主成分分析)。 顺便说一句,你们会猜到我正在从事机器学习。

支持向量和训练数据与分类器性能之间的关系是什么?

我正在使用LibSVM分类一些文件。 最终结果显示,这些文件似乎有点难以分类。 但是,我注意到了一些训练我的模型。 也就是说:如果我的训练集是1000例如800左右被选为支持向量。 我到处寻找,看看这是好事还是坏事。 我的意思是支持向量的数量和分类器的性能有关系吗? 我已阅读此帖以前的职位 。 但是,我正在执行参数select,并且我确信特征向量中的属性都是有序的。 我只需要知道关系。 谢谢。 ps:我使用线性内核。

支持向量机的人工neural network的优点是什么?

ANN(人工neural network)和SVM(支持向量机)是监督机器学习和分类的两种常用策略。 对于一个特定的项目来说,哪种方法更好是不常见的,我确定答案总是“取决于”。 通常,使用两者的组合以及贝叶斯分类。 这些关于Stackoverflow的问题已经被问及关于ANN和SVM: ANN和SVM分类 ANN,SVM和KNN在我的分类问题上有什么区别 支持向量机还是人工neural network进行文本处理? 在这个问题中,我想具体了解一个ANN(特别是一个多层感知器)的哪些方面可能使它适用于SVM? 我问的原因是因为很容易回答相反的问题:支持向量机通常比ANN更好,因为它避免了ANN的两个主要弱点: (1)人工neural network常常是局部最小值而不是全球最小值,这意味着它们有时会“缺失大局”(或者错过了森林) (2)如果训练时间过长,人工neural network往往会过度适应 ,这意味着对于任何给定的模式,人工neural network可能会开始将噪声视为模式的一部分。 SVM不受这两个问题的影响。 然而,支持向量机(SVMs)是人工neural network的完全替代品并不是显而易见的。 那么,人工neural network对SVM有什么特别的优势可以使它适用于某些情况呢? 我已经列举了一个支持向量机的特定优点,现在我想看看人工neural network优点列表(如果有的话)。

MATLAB中的10倍SVM分类示例

我需要一个描述性的例子来说明如何在两类数据集上进行10倍的SVM分类。 在MATLAB文档中只有一个例子,但不是10倍。 有人能帮我吗?

libsvm中的多类分类

我正在使用libsvm ,我必须实现一个对所有的多类的分类。 我该怎么做? libsvm版本2011是否使用这个? 我觉得我的问题不是很清楚。 如果libsvm不自动使用一个对所有,我将使用一个svm每个类,否则我怎么能定义这个参数在svmtrain函数。 我已经阅读了libsvm的README。

使用OpenCV和SVM与图像

我在阅读图像,提取训练function以及使用SVM在OpenCV中testing新图像方面遇到困难。 有人可以请我指向一个伟大的联系? 我已经看过OpenCV支持向量机简介 。 但是这对阅读图像没有帮助,我不知道如何将其纳入。 非常感谢解释。 我的目标是分类图像中的像素。 这些像素将属于一条曲线。 我理解形成训练matrix(例如,图像A 1,1 1,2 1,3 1,4 1,5 2,1 2,2 2,3 2,4 2,5 3,1 3,2 3, 3 3,4 3,5 我将形成我的训练matrix[3] [2] = {{1,1} {1,2} {1,3} {1,4} {1,5} {2,1} .. {} } 不过,我对标签有点混淆。 根据我的理解,我必须指定训练matrix中的哪一行(图像)对应于曲线或非曲线。 但是,如果有一些像素属于曲线而有些像素不属于曲线,那么如何标记训练matrix行(图像)呢? 例如,我的训练matrix是[3] [2] = {{1,1} {1,2} {1,3} {1,4} {1,5} {2,1} .. {}} ,像素{1,1}和{1,4}属于曲线,其余的不是。 非常感谢 –