Tag: 情感分析

无监督情绪分析

我一直在阅读大量的文章,解释在情绪分析系统真正起作用之前,需要分类为“正面”或“负面”的初始文本。 我的问题是:有没有人企图对“积极”形容词与“否定”形容词进行基本检查,考虑到任何简单的否定,以避免将“不快乐”分类为正面? 如果是这样,是否有任何文章讨论为什么这个策略是不现实的?

情感分析字典

我想知道是否有人知道我可以在哪里获得正面和负面的词的字典。 我正在研究情绪分析,这是它的一个关键部分。

文本分类的特征select与缩减

我目前正在做一个项目,一个简单的情绪分析器 ,以便在不同的情况下会有2和3个class 。 我使用的是一个语料相当丰富的语料库 (大约200.000)。 为了特征select ,我使用袋字法,为了减less独特特征的数量,由于出现频率的 阈值而消除。 最后一组特征包括大约20,000个特征,实际上减less了90% ,但是对于testing预测的预期准确性 还不够 。 我依次使用LibSVM和SVM-light进行训练和预测(包括线性和RBF内核 )以及Python和Bash 。 到目前为止观察到的最高精度 是75%左右 ,我至less需要90% 。 二进制分类就是这种情况。 对于多class培训 ,准确率降至〜60% 。 在这两种情况下,我至less需要90% ,并且不能如何增加它:通过优化训练参数或通过优化特征select ? 我已经阅读了关于文本分类中的特征select的文章,并且我发现使用了三种不同的方法,实际上它们之间有明确的相关性。 这些方法如下: 书包的频率方法(BOW) 信息增益 (IG) X ^ 2统计 (CHI) 第一种方法已经是我使用的方法,但是我使用它非常简单,需要指导以更好地使用它以获得足够高的准确性。 我也缺乏关于IG和CHI实际实施的知识,并且希望有任何帮助来指导我。 非常感谢,如果您需要任何其他信息的帮助,请让我知道。 @larsmans: Frequency Threshold(频率阈值) :我正在寻找例子中唯一词的出现次数,例如,如果一个词在不同的例子中频繁出现,它被包含在特征集中作为一个独特的特征。 @TheManWithNoName:首先感谢您解释文档分类的一般问题。 我审查和试验了你提出的所有方法和其他方法。 我发现比例差异 (PD)方法是最好的特征select,其中function单一和术语存在 (TP)的权重(我不明白你为什么标签术语频率逆文档频率 (TF- IDF)作为索引方法,我宁愿把它看作一个特征加权方法)。 正如你所提到的, 预处理也是这个任务的一个重要方面。 我使用某些types的string消除来细化数据以及形态分析和词干 。 另外请注意,我正在使用土耳其语 ,与英语相比,它有不同的特点 […]

培训数据进行情绪分析

我在哪里可以得到一个在企业领域已被归类为正面/负面情绪的文件? 我想要一大批为公司提供评论的文件,比如分析师和媒体提供的评论。 我发现有产品和电影评论的语料库。 是否有商业领域的语料库,包括与企业语言相匹配的公司评论?

在NLTK / Python中使用电影评论语料库进行分类

我期待在NLTK第6章中做一些分类。 这本书似乎跳过了创build类别的一步,我不知道我做错了什么。 我有我的脚本在这里的回应如下。 我的问题主要来自第一部分 – 基于目录名称的类别创build。 这里的一些其他问题已经使用了文件名(即pos_1.txt和neg_1.txt ),但我更喜欢创build可以转储文件的目录。 from nltk.corpus import movie_reviews reviews = CategorizedPlaintextCorpusReader('./nltk_data/corpora/movie_reviews', r'(\w+)/*.txt', cat_pattern=r'/(\w+)/.txt') reviews.categories() ['pos', 'neg'] documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)] all_words=nltk.FreqDist( w.lower() for w in movie_reviews.words() if w.lower() not in nltk.corpus.stopwords.words('english') and w.lower() not in string.punctuation) word_features = all_words.keys()[:100] def document_features(document): document_words = […]