公开发布的垃圾邮件filter培训集

我是机器学习的新手,对于我的第一个项目,我想写一个朴素的贝叶斯垃圾邮件filter。 我想知道是否有公开可用的标签为垃圾邮件/不是垃圾邮件的训练集,最好是纯文本而不是关系数据库的转储(除非他们漂亮地打印这些?)。

我知道这样一个公开可用的数据库存在其他types的文本分类,特别是新闻文章的文本。 我只是无法find电子邮件相同的东西。

这是我正在寻找的: http : //untroubled.org/spam/

这个档案大约有一千兆字节的压缩累积垃圾邮件约会1998年至2011年。现在我只需要得到非垃圾邮件。 所以我只需使用getmail程序和mattcutts.com上的教程来查询我自己的Gmail

当然,据我所知, Spambase是机器学习文献中被广泛引用的垃圾邮件数据集。

我多次使用这个数据集; 每次我都留下了深刻的印象,这个数据集的格式和logging已经付出了多less努力。

Spambase的一些特点:

  • 4601个数据点 – 全部完成

  • 每个由58个特征(属性)

  • 每个数据点被标记为“垃圾邮件”或“无垃圾邮件”

  • 约。 40%被标记为垃圾邮件

  • 的特点,都是连续的(与离散的)

  • 一个代表性的特征: 平均连续的大写字母序列

Spambase存档在UCI机器学习库中 ; 此外,还可以在网站上获得Hastie等人的优秀ML /统计计算论文, 统计学习要素

SpamAssassin拥有一个垃圾邮件和非垃圾邮件的公共语料库 ,虽然它在几年内还没有更新。 阅读readme.html文件,了解有什么。

你可能会考虑看看TREC垃圾邮件/火腿语料库(我认为这是收集安然的电子邮件,这是从法院案件公开的)。 TREC通常运行一些有竞争力的文本处理任务,所以它可能会给你一些参考资料进行比较。

不足之处在于它们以原始的mbox格式存储,尽pipe有许多语言的parsing器可用(Apache Tika就是一个很好的例子)。

该网页不是TREC,但这似乎是与数据链接的任务的一个很好的概述: http : //plg.uwaterloo.ca/~gvcormac/spam/

可以在kagglefind更现代的垃圾邮件训练集。 此外,您可以通过上传结果来testing分类器在其网站上的准确性。

我也有一个答案, 在这里你可以find一个每日刷新的贝叶斯数据库的初始培训,还有一个每日创build的档案包含捕获的垃圾邮件。 你会发现如何在网站上使用它的说明。