用于neural network训练的数据集
我正在寻找一些相对简单的数据集来testing和比较不同的人工neural network训练方法。 我希望数据不会花费太多的预处理来将其转换为input和输出列表(标准化为0-1)的input格式。 任何链接赞赏。
为什么不尝试像sin函数那样简单的训练数据呢? 既然你正在比较训练方法,并不真正关心你正在训练networking,它应该可以工作,而且很容易生成训练数据。
使用sin(x)训练networking,其中x是input,输出是函数的值。 在你的情况下一个额外的好处是结果的绝对值已经在0-1的范围内。 它同样适用于其他mathfunction。
https://archive.ics.uci.edu/ml是加州大学尔湾分校的机器学习数据库。; 这是一个非常好的资源,我相信它们都是CSV文件。
有些资源是
-
sinCfunction。
+---- | sin(x) | ------- when x != 0 | x sinC = | | | 1 otherwise +----
-
sin(x)
函数作为@adrianbanks告诉。 -
为了testing一些新的修改某些algorithm的旧n-paritytesting。
-
虹膜数据集,semeion手写数字数据集等,还有其他function和更多。
-
UCI机器学习库: archive.ics.uci.edu/ml/datasets.html
- 这里是另一个有许多回归数据集的资源: http://www.dcc.fc.up.pt/~ltorgo//Regression/DataSets.html 。 您将从UCI ML知识库中获得许多这些信息。
- 您可以从https://www.kaggle.com/获取各种实用数据集的数据集。;
我不认为你需要大量的预处理。 就像分类variables一样,您可以使用GUI文本编辑器快速replace二进制文件。 例如, 鲍鱼数据集有一个分类属性Gender,男性有三个“M”,女性有“F”,婴儿有“I”。 您可以在文本编辑器中按Ctrl + R,并用1,0,0
replace所有出现的“M”,所有出现的“F”用0,1,0
和所有出现的“I”用0,0,1
(考虑到文件是CSV格式)。 这将快速replace分类variables。
如果你在R中 ,那么你可以使用RSNNS软件包附带的normalizeData
函数来扩展和规范你的数据在0和1。
如果你在其他环境如八度或matlab ,你可以花一些时间写你的代码。 我不知道在这些环境中可用的function,我使用我的代码来缩放和/或标准化数据。
当您使用function时,您的工作变得更容易,一旦您准备好数据,将修改的数据保存在文件中。
记住一件事,培训neural network的目标不仅仅是训练networking,使其在某个训练集上运行良好。 主要目标是训练networking,使其对networking没有看到的(直接或间接)新数据具有最佳的误差。
以下是一些用于培训目的的手写和其他数据库。
http://www.cs.nyu.edu/~roweis/data.html
作为一个有趣的方面说明,〜roweis在2010年与妻子战斗后自杀身亡: http ://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html。
通过使用它们来执行OCR(光学字符识别),我学习了人工neural network作为本科生。 我认为这是一个很好的用例。
扫描两页文本,提取字母并形成训练/testing数据集(例如,8×8像素导致64个input节点),标记数据。 训练ANN并使用testing数据集获得分数。 更改networking拓扑/参数并调整networking以获得最佳分数。