大型公共数据集？

我正在寻找一些大型的公共数据集，特别是：

大型样本Web服务器日志已被匿名。
用于数据库性能基准testing的数据集。

任何其他的大型公共数据集的链接将不胜感激。我已经了解了亚马逊的公共数据集： http : //aws.amazon.com/publicdatasets/

1.大型样本Web服务器日志已被匿名。

这些工作开始于：

UCI机器学习库
- 匿名的Microsoft Web数据
- MSNBC.com匿名networking数据
- Syskill和Webert Web页面评级

除此之外，还有许多其他数据可供使用（请参阅其他答案的色域），但这是符合您原始标准的最低水果。作为奖励，他们有一个联系链接，如果你有他们可能知道的具体需求。

2.用于数据库性能基准testing的数据集。

这听起来有点不恰当，因为你需要描述明确的 algorithm 问题的经验数据集。具体来说，这听起来像是在试图find一组数据，您可以使用这些数据来实时testing和testing各种数据库系统，使用定义良好的规范化关系数据，这些数据可以用作一组testing用例来确定最有效的解决scheme，满足您的需求。

我不同意这种做法。而不是find一大堆的数据库系统和他们的jar头实现，这是更好的探索这些系统的algorithm 保证作为您的第一个端口。一旦确定了满足您的需求的algorithm约束条件，您可以磨合一系列的解决scheme，您可以对索引，sorting，search，插入，删除和检索等效率进行基准testing。

维基百科提供了关于数据库testing概念的简要文章，您可以使用这些概念来确定和编写基准testing性能的testing用例。例如，您可以使用不可知的数据访问接口，如JDBC和JDBC Benchmark来确定每个操作的相对时间。从这里，你可以磨合一个正确的解决scheme。

总之，先去研究确定数据库保证。一旦确定了一套候选解决scheme，您可以通过testing（或以其他方式确定）每个所需操作的恒定时间性能来select这些解决scheme。

基于我的研究中的Quora答案和个人collections，在GitHub上创build并更新了一个非常棒的公共数据库存储库：

以下是此列表的快照版本。有关最新的列表，请访问Github ：

这个公共数据源列表是从博客，答案和用户响应中收集和整理的。下面列出的大部分数据都是免费的，但有些则不是。该列表来自https://github.com/caesar0301/awesome-public-datasets 。

气候

澳大利亚天气： http ： //www.bom.gov.au/climate/dwo/
气候资料： http ： //www.cru.uea.ac.uk/cru/data/temperature/#datter和ftp://ftp.cmdl.noaa.gov/
自1929年以来的全球气候数据： http ： //www.tutiempo.net/cn/Climate
NOAA白令海气候： http ： //www.beringclimate.noaa.gov/
NOAA气候资料集： http ： //ncdc.noaa.gov/data-access/quick-links
全球历史天气： http ： //www.wunderground.com/history/index.html

经济学

美国经济屁股。（AEA）： http ://www.aeaweb.org/RFE/toc.php?show=complete
EconData（UMD）： http ://inforumweb.umd.edu/econdata/econdata.html
互联网产品代码数据库： http : //www.upcdatabase.com/
世界银行： http : //data.worldbank.org/indicator

金融

CBOE期货交易所： http ： //cfe.cboe.com/Data/
Google财经： https ： //www.google.com/finance
Google趋势： http : //www.google.com/trends? q = google&ctab =0& geo = all&date = all&sort =0
纳斯达克： https ： //data.nasdaq.com/
OANDA： http : //www.oanda.com/
俄勒冈州立大学财务数据： http ： //fisher.osu.edu/fin/osudata.htm
Quandl： http ://www.quandl.com/
圣路易斯联邦： http : //research.stlouisfed.org/fred2/
雅虎财经： http : //finance.yahoo.com/

生物学

CRCNS： http ://crcns.org/data-sets
Gene Expression Omnibus： http : //www.ncbi.nlm.nih.gov/geo/
人类微生物组计划： http ： //www.hmpdacc.org/reference_genomes/reference_genomes.php
麻省理工学院癌症基因组学数据： http ： //www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
NIH微arrays数据： ftp : //ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/
蛋白质结构： http : //www.infobiotic.net/PSPbenchmarks/
公共基因数据： http : //www.pubgene.org/
斯坦福大学微arrays数据： http ： //smd.stanford.edu/
UniGene： http ://www.ncbi.nlm.nih.gov/unigene

物理

NASA： http ： //nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html

卫生保健

EHDP大健康数据集： http ://www.ehdp.com/vitalnet/datasets.htm
Gapminder： http ://www.gapminder.org/data/
Medicare数据文件： http ： //go.cms.gov/19xxPN4

地球空间

EOSDIS： http ：//sedac.ciesin.columbia.edu/data/sets/browse
事实全球地理位置数据： http : //www.factual.com/
地理空间数据： http : //geodacenter.asu.edu/datalist/

运输

航空公司数据（2009 ASA Challenge）： http ： //stat-computing.org/dataexpo/2009/the-data.html
机场及其位置： http ： //www.infochimps.com/datasets/airports-and-their-locations
自行车共享数据系统： https ： //github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems
美国国内航class1990年至2009年的边缘数据： http : //data.memect.com/?p=229
百万次Hubway游乐设施： http ://hubwaydatachallenge.org/trip-history-data/
纽约市出租车行程数据2013（FOIA / FOIL）： https ： //archive.org/details/nycTaxiTripData2013
OpenFlights（机场，航空公司和路线数据）： http ： //openflights.org/data.html
RITA航空公司准时性能数据： http ： //www.transtats.bts.gov/Tables.asp？ DB_ID = 120
RITA运输数据收集： http ： //www.transtats.bts.gov/DataIndex.asp
伦敦交通： http : //www.tfl.gov.uk/info-for/open-data-users/our-feeds
美国货运分析框架： http ： //ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm

政府

存档它： https : //www.archive-it.org/explore?show=Collections
澳大利亚： http : //www.abs.gov.au/AUSSTATS/abs@.nsf/DetailsPage/3301.02009?OpenDocument
加拿大： http : //www.data.gc.ca/default.asp?lang= En&n =5BCD274E-1
芝加哥： https ： //data.cityofchicago.org/
FDA： https ： //open.fda.gov/index.html
美联储统计： http : //www.fedstats.gov/cgi-bin/A2Z.cgi
卫报世界各国政府： http ： //www.guardian.co.uk/world-government-data
HUD： http : //www.huduser.org/portal/datasets/pdrdatas.html
伦敦的Datastore，英国： http : //data.london.gov.uk/dataset
新西兰： http ： //www.stats.govt.nz/browse_for_stats.aspx
纽约市betanyc： http ://betanyc.us/
纽约市开放数据： http : //nycplatform.socrata.com/
经合组织： http : //www.oecd.org/document/0,3746,en_2649_201185_46462759_1_1_1_1,00.html
RITA： http : //www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp
旧金山数据集： http : //datasf.org/
世界银行： http ： //wdronline.worldbank.org/
英国政府数据： http ： //data.gov.uk/data
美国人口普查局： http ： //www.census.gov/data.html
美国联邦政府机构： http ： //www.data.gov/metric
美国联邦政府数据目录： http ： //catalog.data.gov/dataset
美国公开政府： http ： //www.data.gov/open-gov/
英国2011年人口普查开放地图集计划： http : //www.alex-singleton.com/2011-census-open-atlas-project/
联合国： http : //data.un.org/
美国疾病预防控制中心公共卫生数据集： http : //www.cdc.gov/nchs/data_access/ftp_data.htm

数据挑战

机器学习面临的挑战： http ： //www.chalearn.org/
ICWSM数据挑战（自2009年起）： http ://icwsm.cs.umbc.edu/
Kaggle比赛数据： http ：//www.kaggle.com/
腾讯2012年KDD杯： https ： //www.kddcup2012.org/
Netflix奖： http : //www.netflixprize.com/leaderboard
Yelp数据集挑战： http ： //www.yelp.com/dataset_challenge

机器学习

易趣在线拍卖： http ： //www.modelingonlineauctions.com/datasets
IMDb数据库： http : //www.imdb.com/interfaces
龙骨库： http : //sci2s.ugr.es/keel/datasets.php
贷款俱乐部贷款数据： https : //www.lendingclub.com/info/download-data.action
机器学习数据集储存库： http ： //mldata.org/
百万宋数据集： http : //blog.echonest.com/post/3639160982/million-song-dataset
更多的歌曲数据集： http : //labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
MovieLens数据集： http : //datahub.io/dataset/movielens
RDataMining R和数据挖掘电子书数据： http ://www.rdatamining.com/data
在地球上注册的陨石： http : //www.analyticbridge.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
SF餐厅数据集： http : //missionlocal.org/san-francisco-restaurant-health-inspections/
UCI机器学习库： http : //archive.ics.uci.edu/ml/
多伦多大学Delve数据集： http : //www.cs.toronto.edu/~delve/data/datasets.html
雅虎评级和分类数据： http ://webscope.sandbox.yahoo.com/catalog.php?datatype =r

自然语言

上下文中有4千万个实体： https ： //code.google.com/p/wiki-links/downloads/list
ClueWeb09 FACC： http ://lemurproject.org/clueweb09/FACC1/
ClueWeb12 FACC： http ://lemurproject.org/clueweb12/FACC1/
Flickr个人分类法： http : //www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
Google Books Ngrams： http ：//aws.amazon.com/datasets/8172056142375670
Google Web 5gram，2006（1T）： https ：//catalog.ldc.upenn.edu/LDC2006T13
Gutenberg电子书列表： http : //www.gutenberg.org/wiki/Gutenberg : Offline_Catalogs
Hansards： http ://www.isi.edu/natural-language/download/hansard/
机器翻译： http ： //statmt.org/wmt11/translation-task.html#download
短信垃圾邮件收集： http : //www.dt.fee.unicamp.br/~tiago/smsspamcollection/
USENET语料库： http : //www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
WordNet： http : //wordnet.princeton.edu/wordnet/download/

image processing

2GB的猫的照片： http ： //bit.do/UJZZ
人脸识别基准： http : //www.face-rec.org/databases/
ImageNet： http : //www.image-net.org/

时间序列

时间序列数据库： https : //datamarket.com/data/list/?q= provider: tsdl
加州大学河滨分校时间系列： http : //www.cs.ucr.edu/~eamonn/time_series_data/

社会科学

中国酒店入住/退房数据： http ： //www.360doc.com/content/13/1105/13/7863900_326788919.shtml
CMU安然电子邮箱： http : //www.cs.cmu.edu/~enron/
Facebook的社交networking（自2007年）： http : //law.di.unimi.it/datasets.php
Facebook100（2005）： https : //archive.org/details/oxford-2005-facebook-matrix
Foursquare（2010,2011）： http ：//www.public.asu.edu/~hgao16/dataset.html
Foursquare（UMN / Sarwat，2013）： https ： //archive.org/details/201309_foursquare_dataset_umn
一般社会调查（GSS）： http : //www3.norc.org/GSS+Website/
GetGlue（用户评分电视节目）： http ： //getglue-data.s3.amazonaws.com/getglue_sample.tar.gz
GitHub存档： http : //www.githubarchive.org/
ICPSR： http : //www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp
移动社交networking（UMASS）： https ：//kdl.cs.umass.edu/display/public/Mobile+Social+Networks
PewResearch互联网项目： http ://www.pewinternet.org/datasets/pages/2/
社交networking： http : //www.cs.cmu.edu/~jelsas/data/ancestry.com/
SourceForge图： http : //www.nd.edu/~oss/Data/data.html
泰坦尼克号生存数据集： https ： //github.com/caesar0301/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip
Twitter图： http ： //an.kaist.ac.kr/traces/WWW2010.html
加州大学伯克利分校的D-Lab档案： http ://ucdata.berkeley.edu/
加州大学洛杉矶分校社会科学数据存档： http : //dataarchives.ss.ucla.edu/Home.DataPortals.htm
UNIMI社交networking数据集： http ://law.di.unimi.it/datasets.php
世界各地的大学： http : //univ.cc/
UPJOHN就业研究： http ://www.upjohn.org/erdc/erdc.html
雅虎图表和社交数据： http ://webscope.sandbox.yahoo.com/catalog.php?datatype =g
Youtube Graph（2007,2008）： http : //netsg.cs.sfu.ca/youtubedata/

复杂的networking

CrossRef DOIurl： https ： //archive.org/details/doi-urls
DBLP引用数据集： https ： //kdl.cs.umass.edu/display/public/DBLP
NBER专利引用： http ： //nber.org/patents/
NIST复杂的networking数据收集： http : //math.nist.gov/~RPozo/complex_datasets.html
蛋白质 – 蛋白质相互作用networking： http : //vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
PyPI和Maven依赖networking： http : //ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
Scopus引用数据库： http : //www.elsevier.com/online-tools/scopus
Stanford GraphBase（Steven Skiena）： http ://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
斯坦福大型networking数据集合： http : //snap.stanford.edu/data/
科布伦茨networkingcollections： http ： //konect.uni-koblenz.de/
UCInetworking数据库： http ：
UFL稀疏matrix集合： http : //www.cise.ufl.edu/research/sparse/matrices/
UNIMI大型networking图： http ://law.di.unimi.it/datasets.php
WSUgraphics数据库： http : //www.eecs.wsu.edu/mgd/gdb.html

计算机networking

3.5B网页： http : //www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
53.5B网页点击： http ：//cnets.indiana.edu/groups/nan/webtraffic/click-dataset
CAIDA互联网数据集： http : //www.caida.org/data/overview/
ClueWeb09： http ://lemurproject.org/clueweb09/
ClueWeb12： http ://lemurproject.org/clueweb12/
CommonCrawl Web Data： http ://commoncrawl.org/the-data/get-started/
达特茅斯CRAWDAD无线数据集： http ：//crawdad.cs.dartmouth.edu/
OpenMobileData（MobiPerf）： https ：//console.developers.google.com/storage/openmobiledata_public/
UCSDnetworking望远镜： http ： //www.caida.org/projects/network_telescope/

数据SE

学术种子： http : //academictorrents.com/
Datahub.io：http://datahub.io/dataset
DataMarket： https ://datamarket.com/data/list/ ? q = all
哈佛数据报： http ：//thedata.harvard.edu/dvn/
Statista： http : //www.statista.com/
Freebase： http ://www.freebase.com/

公共的多维生素

亚马逊： http ： //aws.amazon.com/datasets
Archive.org数据集： https ： //archive.org/details/datasets
CMU JASA数据存档： http : //lib.stat.cmu.edu/jasadata/
CMU StatLab集合： http ://lib.stat.cmu.edu/datasets/
Data360： http ：//www.data360.org/index.aspx
Datamob.org：http://datamob.org/datasets
Google： http : //www.google.com/publicdata/directory
infochimps： http : //www.infochimps.com/
KDNuggets数据收集： http ：//www.kdnuggets.com/datasets/index.html
Numbray： http ://numbrary.com/
RevolutionAnalytics集合： http : //www.revolutionanalytics.com/subscriptions/datasets/
样本R数据集： http : //stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html
Stats4Stem R数据集： http ： //www.stats4stem.org/data-sets.html
StatSci.org：http://www.statsci.org/datasets.html
华盛顿邮报列表： http : //www.washingtonpost.com/wp-srv/metro/data/datapost.html
加州大学洛杉矶分校数据收集： http ://wiki.stat.ucla.edu/socr/index.php/SOCR_Data
不明飞行物报告： http : //www.nuforc.org/webreports.html
Wikileaks 911 pager拦截：http: //911.wikileaks.org/files/index.html
Yahoo Webscope： http ://webscope.sandbox.yahoo.com/catalog.php

补充collections

DataWrangling： http ://www.datawrangling.com/some-datasets-available-on-the-web
Inside-r： http : //www.inside-r.org/howto/finding-data-internet
Quora： http : //www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
RS Collection 100+： http : //rs.io/2014/05/29/list-of-data-sets.html
StaTrek： http ://hsiamin.com/posts/2014/10/23/leveraging-open-data-to-understand-urban-lives/

这里有几个。玩的开心。

http://archive.ics.uci.edu/ml/

http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1

http://crawdad.org/

http://data.austintexas.gov

http://data.cityofchicago.org

http://data.govloop.com

http://data.gov.uk/

http://data.medicare.gov

http://data.seattle.gov

http://data.sfgov.org

http://data.sunlightlabs.com