培训数据进行情绪分析

我在哪里可以得到一个在企业领域已被归类为正面/负面情绪的文件? 我想要一大批为公司提供评论的文件,比如分析师和媒体提供的评论。

我发现有产品和电影评论的语料库。 是否有商业领域的语料库,包括与企业语言相匹配的公司评论?

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

你可以使用微博,像这样的twitter: http ://web.archive.org/web/20111119181304/http: //deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-asa-a-语料库换情感分析和-观点- Mining.pdf

希望能让你开始。 如果你对特定的子任务感兴趣,比如否定,情感范围等,文献中还有更多。

为了把重点放在公司上,你可以将一种方法与主题检测结合起来,或者简单地说一个给定的公司。 或者,您可以通过Mechanical Turkers获得您的数据注释。

这是我几个星期前从我的博客写的一个列表。 其中一些数据集最近被包含在NLTK Python平台中。

词典

  • 刘兵的意见词汇

    • URL : http : //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon
    • 论文 : 挖掘和总结客户评论
    • 注意 :包含在NLTK Python平台中
  • MPQA主观词汇

    • url : http : //mpqa.cs.pitt.edu/#subj_lexicon
    • 论文 : 识别短语级情感分析中的情境极性(Theresa Wilson,Janyce Wiebe和Paul Hoffmann,2005) 。
  • SentiWordNet

    • url : http : //sentiwordnet.isti.cnr.it
    • 注意 :包含在NLTK Python平台中
  • 哈佛一般询问者

    • url : http : //www.wjh.harvard.edu/~inquirer
    • 论文 : 一般询问者:内容分析的计算机方法(Stone,Philip J; Dexter C. Dunphry; Marshall S. Smith;和Daniel M. Ogilvie.1966)
  • 语言查询和字数统计(LIWC)

    • url : http : //www.liwc.net
  • 维达词典

    • url : https : //github.com/cjhutto/vaderSentiment,http : //comp.social.gatech.edu/papers
    • 论文 : Vader:基于规则的社交媒体文本情感分析模型(Hutto,Gilbert,2014)

数据集

  • MPQA数据集

    • url : http : //mpqa.cs.pitt.edu
    • 注意 :GNU公共许可证。

      • 政治辩论数据
      • 产品辩论数据
      • 主观意识注释
  • Sentiment140 (推文)

    • url : http : //help.sentiment140.com/for-students
    • 使用远程监督发送分类(Go,Alec,Richa Bhayani和Lei Huang)
    • url : http : //help.sentiment140.com,https : //groups.google.com/forum/#!forum / sentiment140
  • STS-Gold (推文)

    • url : http : //www.tweenator.com/index.php?page_id = 13
    • 论文 : Twitter情绪分析的评估数据集(Saif,Fernandez,He,Alani)
    • 注意 :作为Sentiment140,但是数据集较小并且带有人类注释器。 它带有3个文件:推文,实体(他们的情绪)和一个集合。
  • 顾客评论数据集 (产品评论)

    • url : http : //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
    • 论文 : 挖掘和总结客户评论
    • 注释 :评论标题,产品特征,具有意见强度的正面/负面标签,其他信息(比较,代词parsing等)

    包含在NLTK Python平台中

  • 优点和缺点数据集 (优点和缺点句子)

    • url : http : //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
    • 论文 : 比较句的挖掘意见(Ganapathibhotla,Liu 2008)
    • :标记<pros><cons>的句子列表

    包含在NLTK Python平台中

  • 比较句 (评论)

    • url : http : //www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
    • 论文 : 文本文档中比较句的识别(Nitin Jindal and Bing Liu) , 顾客评论中的挖​​掘意见特征(胡敏清,刘兵)
    • :句子,带有POS标签的句子,实体,比较types(不等于,等于,最高,不可分级)

    包含在NLTK Python平台中

  • Sanders Analytics推理语料库 (推特)

    • url : http : //www.sananalytics.com/lab/twitter-sentiment

    5513手分类tweet与4个不同的话题。 由于Twitter的ToS,包含一个小的Python脚本来下载所有的tweets。 情感分类本身是免费提供的,没有任何限制。 他们可能被用于商业产品。 他们可能被重新分配。 他们可能会被修改。

  • 西class牙推文 (Tweets)

    • url : http : //www.daedalus.es/TASS2013/corpus.php
  • SemEval 2014 (推文)

    • url : http : //alt.qcri.org/semeval2014/task9

    您不得重新发布tweets,注释或获得的语料(从自述文件中获取)

  • 各种数据集 (评论)

    • url : https : //personalwebs.coloradocollege.edu/~mwhitehead/html/opinion_mining.html
    • 论文 : build立一个通用的跨领域情感挖掘模型(Whitehead和Yaeger) , 使用集成分类模型的情感挖掘(Whitehead和Yaeger)
  • 各种数据集#2 (评论)

    • url : http : //www.text-analytics101.com/2011/07/user-review-datasets_20.html

参考文献:

  • Keenformatics – 情感分析词典和数据集 (我的博客)
  • 个人经验

如果您有一些关于您想探索的域的资源(媒体渠道,博客等),您可以创build自己的语料库。 我在Python中这样做:

创build语料库是一项艰苦的预处理,检查,标记等工作,但具有为特定领域准备模型多次提高准确性的好处。 如果你已经准备好了语料库,只要进行情绪分析;)

我不知道任何这样的语料库是免费提供的,但是您可以在未标记的数据集上尝试一种无监督的方法 。

您可以从Datafiniti获得大量的在线评论。 大多数评论都带有评分数据,这些评论数据可以提供比正面/反面更多的情感细化。 以下是包含评论的商家列表,以下是包含评论 的商品列表 。