培训数据进行情绪分析
我在哪里可以得到一个在企业领域已被归类为正面/负面情绪的文件? 我想要一大批为公司提供评论的文件,比如分析师和媒体提供的评论。
我发现有产品和电影评论的语料库。 是否有商业领域的语料库,包括与企业语言相匹配的公司评论?
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
你可以使用微博,像这样的twitter: http ://web.archive.org/web/20111119181304/http: //deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-asa-a-语料库换情感分析和-观点- Mining.pdf
希望能让你开始。 如果你对特定的子任务感兴趣,比如否定,情感范围等,文献中还有更多。
为了把重点放在公司上,你可以将一种方法与主题检测结合起来,或者简单地说一个给定的公司。 或者,您可以通过Mechanical Turkers获得您的数据注释。
这是我几个星期前从我的博客写的一个列表。 其中一些数据集最近被包含在NLTK Python平台中。
词典
-
刘兵的意见词汇
- URL : http : //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon
- 论文 : 挖掘和总结客户评论
- 注意 :包含在NLTK Python平台中
-
MPQA主观词汇
- url : http : //mpqa.cs.pitt.edu/#subj_lexicon
- 论文 : 识别短语级情感分析中的情境极性(Theresa Wilson,Janyce Wiebe和Paul Hoffmann,2005) 。
-
SentiWordNet
- url : http : //sentiwordnet.isti.cnr.it
- 注意 :包含在NLTK Python平台中
-
哈佛一般询问者
- url : http : //www.wjh.harvard.edu/~inquirer
- 论文 : 一般询问者:内容分析的计算机方法(Stone,Philip J; Dexter C. Dunphry; Marshall S. Smith;和Daniel M. Ogilvie.1966)
-
语言查询和字数统计(LIWC)
- url : http : //www.liwc.net
-
维达词典
- url : https : //github.com/cjhutto/vaderSentiment,http : //comp.social.gatech.edu/papers
- 论文 : Vader:基于规则的社交媒体文本情感分析模型(Hutto,Gilbert,2014)
数据集
-
MPQA数据集
- url : http : //mpqa.cs.pitt.edu
-
注意 :GNU公共许可证。
- 政治辩论数据
- 产品辩论数据
- 主观意识注释
-
Sentiment140 (推文)
- url : http : //help.sentiment140.com/for-students
- 使用远程监督发送分类(Go,Alec,Richa Bhayani和Lei Huang)
- url : http : //help.sentiment140.com,https : //groups.google.com/forum/#!forum / sentiment140
-
STS-Gold (推文)
- url : http : //www.tweenator.com/index.php?page_id = 13
- 论文 : Twitter情绪分析的评估数据集(Saif,Fernandez,He,Alani)
- 注意 :作为Sentiment140,但是数据集较小并且带有人类注释器。 它带有3个文件:推文,实体(他们的情绪)和一个集合。
-
顾客评论数据集 (产品评论)
- url : http : //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- 论文 : 挖掘和总结客户评论
- 注释 :评论标题,产品特征,具有意见强度的正面/负面标签,其他信息(比较,代词parsing等)
包含在NLTK Python平台中
-
优点和缺点数据集 (优点和缺点句子)
- url : http : //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- 论文 : 比较句的挖掘意见(Ganapathibhotla,Liu 2008)
- 注 :标记
<pros>
或<cons>
的句子列表
包含在NLTK Python平台中
-
比较句 (评论)
- url : http : //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- 论文 : 文本文档中比较句的识别(Nitin Jindal and Bing Liu) , 顾客评论中的挖掘意见特征(胡敏清,刘兵)
- 注 :句子,带有POS标签的句子,实体,比较types(不等于,等于,最高,不可分级)
包含在NLTK Python平台中
-
Sanders Analytics推理语料库 (推特)
- url : http : //www.sananalytics.com/lab/twitter-sentiment
5513手分类tweet与4个不同的话题。 由于Twitter的ToS,包含一个小的Python脚本来下载所有的tweets。 情感分类本身是免费提供的,没有任何限制。 他们可能被用于商业产品。 他们可能被重新分配。 他们可能会被修改。
-
西class牙推文 (Tweets)
- url : http : //www.daedalus.es/TASS2013/corpus.php
-
SemEval 2014 (推文)
- url : http : //alt.qcri.org/semeval2014/task9
您不得重新发布tweets,注释或获得的语料(从自述文件中获取)
-
各种数据集 (评论)
- url : https : //personalwebs.coloradocollege.edu/~mwhitehead/html/opinion_mining.html
- 论文 : build立一个通用的跨领域情感挖掘模型(Whitehead和Yaeger) , 使用集成分类模型的情感挖掘(Whitehead和Yaeger)
-
各种数据集#2 (评论)
- url : http : //www.text-analytics101.com/2011/07/user-review-datasets_20.html
参考文献:
- Keenformatics – 情感分析词典和数据集 (我的博客)
- 个人经验
这里还有一些;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
如果您有一些关于您想探索的域的资源(媒体渠道,博客等),您可以创build自己的语料库。 我在Python中这样做:
- 使用美丽的汤http://www.crummy.com/software/BeautifulSoup/parsing我想分类的内容。;
- 分开那些对公司有正面或负面意见的句子。
- 使用NLTK来处理这些句子,标记词,POS标记等。
- 使用NLTK PMI来计算在一个class级中频繁的bigrams或trigrams mos
创build语料库是一项艰苦的预处理,检查,标记等工作,但具有为特定领域准备模型多次提高准确性的好处。 如果你已经准备好了语料库,只要进行情绪分析;)
我不知道任何这样的语料库是免费提供的,但是您可以在未标记的数据集上尝试一种无监督的方法 。
您可以从Datafiniti获得大量的在线评论。 大多数评论都带有评分数据,这些评论数据可以提供比正面/反面更多的情感细化。 以下是包含评论的商家列表,以下是包含评论 的商品列表 。