无监督情绪分析

我一直在阅读大量的文章,解释在情绪分析系统真正起作用之前,需要分类为“正面”或“负面”的初始文本。

我的问题是:有没有人企图对“积极”形容词与“否定”形容词进行基本检查,考虑到任何简单的否定,以避免将“不快乐”分类为正面? 如果是这样,是否有任何文章讨论为什么这个策略是不现实的?

Peter Turney (2002)的一篇经典论文解释了一种使用优秀贫穷的词作为种子集进行无监督情绪分析(正面/负面分类)的方法。 Turney利用这两个形容词的互词信息来达到74%的准确率。

我还没有尝试做过未经训练的情绪分析,比如你正在描述,但是我的头顶上,我会说你是在简单的问题。 简单地分析形容词不足以把握文本的情感; 例如,考虑“愚蠢”这个词。 一个人,你会把它归类为负面的,但如果一个产品评论有'… [x]产品让他们的竞争对手看起来很愚蠢,先不考虑这个function……“那么那里的情绪肯定会是正面的。 在这样的情况下,词语出现的更大背景是绝对重要的。 这就是为什么一个单纯的未经训练的口袋方式(更不用说更加有限的形容词)不足以充分解决这个问题。

预先分类的数据(“训练数据”)有助于将问题从试图确定文本是否为正面或负面的情绪从试图确定文本是否更接近正面文本或负面文本,并将其分类。 另一个重点是情感分析等文本分析往往受到文本特征的区域差异的影响。 这就是为什么拥有一套好的数据来训练(也就是说,你正在从事的领域内准确的数据,并希望能够代表你将要分类的文本)与build立一个好的系统来分类。

不完全是一篇文章,但希望有所帮助。

勒曼(2002)提到的论文是一个很好的基础。 在较新的研究中, Li和He [2009]引入了一种使用潜在狄利克雷分配 (LDA)的方法来训练一个模型,该模型可以以完全无监督的方式同时分类文章的整体情感和主题。 他们达到的准确度是84.6%。

我试着使用情感字典来查找关键字,以预测句子级别的情感标签。 考虑到词汇的一般性(非域依赖),结果只有大约61%。 这篇论文可以在我的主页上find。

在一个稍微改进的版本中,否定副词被考虑。 整个系统名为EmoLib,可用于演示:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

问候,

大卫,

我不确定这是否有帮助,但是您可能需要查看Jacob Perkin关于使用NLTK进行情感分析的博客文章 。

我在评论中尝试了多种情感分析方法来进行意见挖掘。 最适合我的方法是刘书中所描述的方法: http : //www.cs.uic.edu/~liub/WebMiningBook.html在这本书中,刘和其他人比较了许多策略,并讨论了不同的情感分析和意见挖掘。

尽pipe我的主要目标是提取意见中的特征,但我实施了一个情感分类器来检测这个特征的正面和负面分类。

我使用NLTK进行预处理(字标记,POS标记)和三卦创build。 然后我也用这个内部的贝叶斯分类器来比较刘正在找的其他策略。

其中一种方法依赖于标记pos / neg每个trigrramexpression这个信息,并使用这些数据的一些分类器。 我尝试过的其他方法,更好地工作(我的数据集的准确率达到85%左右),计算句子中每个单词的PMI(准时互信息)分数和正/负类。

在情感分析中没有任何神奇的“捷径”,就像其他types的文本分析一样,试图发现大量文本的基本“关系”。 试图通过简单的“形容词”检查或类似的方法来缩短certificate的文本分析方法会导致歧义,错误的分类等等,在一天结束的时候,给你的情绪读起来不太准确。 来源(例如Twitter)越简洁,问题就越困难。