大型公共数据集?

我正在寻找一些大型的公共数据集,特别是:

  1. 大型样本Web服务器日志已被匿名。

  2. 用于数据库性能基准testing的数据集。

任何其他的大型公共数据集的链接将不胜感激。 我已经了解了亚马逊的公共数据集: http : //aws.amazon.com/publicdatasets/

1.大型样本Web服务器日志已被匿名。

这些工作开始于:

  • UCI机器学习库
    • 匿名的Microsoft Web数据
    • MSNBC.com匿名networking数据
    • Syskill和Webert Web页面评级

除此之外,还有许多其他数据可供使用(请参阅其他答案的色域),但这是符合您原始标准的最低水果。 作为奖励,他们有一个联系链接,如果你有他们可能知道的具体需求。

2.用于数据库性能基准testing的数据集。

这听起来有点不恰当,因为你需要描述明确的 algorithm 问题的经验数据集。 具体来说,这听起来像是在试图find一组数据,您可以使用这些数据来实时testing和testing各种数据库系统,使用定义良好的规范化关系数据,这些数据可以用作一组testing用例来确定最有效的解决scheme,满足您的需求。

我不同意这种做法。 而不是find一大堆的数据库系统和他们的jar头实现,这是更好的探索这些系统的algorithm 保证作为您的第一个端口。 一旦确定了满足您的需求的algorithm约束条件,您可以磨合一系列的解决scheme,您可以对索引,sorting,search,插入,删除和检索等效率进行基准testing。

维基百科提供了关于数据库testing概念的简要文章 ,您可以使用这些概念来确定和编写基准testing性能的testing用例。 例如,您可以使用不可知的数据访问接口,如JDBC和JDBC Benchmark来确定每个操作的相对时间。 从这里,你可以磨合一个正确的解决scheme。

总之,先去研究确定数据库保证。 一旦确定了一套候选解决scheme,您可以通过testing(或以其他方式确定)每个所需操作的恒定时间性能来select这些解决scheme。

基于我的研究中的Quora答案和个人collections,在GitHub上创build并更新了一个非常棒的公共数据库存储库:

以下是此列表的快照版本。 有关最新的列表,请访问Github :

这个公共数据源列表是从博客,答案和用户响应中收集和整理的。 下面列出的大部分数据都是免费的,但有些则不是。 该列表来自https://github.com/caesar0301/awesome-public-datasets

气候

  • 澳大利亚天气: http : //www.bom.gov.au/climate/dwo/
  • 气候资料: http : //www.cru.uea.ac.uk/cru/data/temperature/#datter和ftp://ftp.cmdl.noaa.gov/
  • 自1929年以来的全球气候数据: http : //www.tutiempo.net/cn/Climate
  • NOAA白令海气候: http : //www.beringclimate.noaa.gov/
  • NOAA气候资料集: http : //ncdc.noaa.gov/data-access/quick-links
  • 全球历史天气: http : //www.wunderground.com/history/index.html

经济学

  • 美国经济屁股。 (AEA): http ://www.aeaweb.org/RFE/toc.php?show=complete
  • EconData(UMD): http ://inforumweb.umd.edu/econdata/econdata.html
  • 互联网产品代码数据库: http : //www.upcdatabase.com/
  • 世界银行: http : //data.worldbank.org/indicator

金融

  • CBOE期货交易所: http : //cfe.cboe.com/Data/
  • Google财经: https : //www.google.com/finance
  • Google趋势: http : //www.google.com/trends? q = google&ctab =0& geo = all&date = all&sort =0
  • 纳斯达克: https : //data.nasdaq.com/
  • OANDA: http : //www.oanda.com/
  • 俄勒冈州立大学财务数据: http : //fisher.osu.edu/fin/osudata.htm
  • Quandl: http ://www.quandl.com/
  • 圣路易斯联邦: http : //research.stlouisfed.org/fred2/
  • 雅虎财经: http : //finance.yahoo.com/

生物学

  • CRCNS: http ://crcns.org/data-sets
  • Gene Expression Omnibus: http : //www.ncbi.nlm.nih.gov/geo/
  • 人类微生物组计划: http : //www.hmpdacc.org/reference_genomes/reference_genomes.php
  • 麻省理工学院癌症基因组学数据: http : //www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
  • NIH微arrays数据: ftp : //ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/
  • 蛋白质结构: http : //www.infobiotic.net/PSPbenchmarks/
  • 公共基因数据: http : //www.pubgene.org/
  • 斯坦福大学微arrays数据: http : //smd.stanford.edu/
  • UniGene: http ://www.ncbi.nlm.nih.gov/unigene

物理

  • NASA: http : //nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html

卫生保健

  • EHDP大健康数据集: http ://www.ehdp.com/vitalnet/datasets.htm
  • Gapminder: http ://www.gapminder.org/data/
  • Medicare数据文件: http : //go.cms.gov/19xxPN4

地球空间

  • EOSDIS: http ://sedac.ciesin.columbia.edu/data/sets/browse
  • 事实全球地理位置数据: http : //www.factual.com/
  • 地理空间数据: http : //geodacenter.asu.edu/datalist/

运输

  • 航空公司数据(2009 ASA Challenge): http : //stat-computing.org/dataexpo/2009/the-data.html
  • 机场及其位置: http : //www.infochimps.com/datasets/airports-and-their-locations
  • 自行车共享数据系统: https : //github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems
  • 美国国内航class1990年至2009年的边缘数据: http : //data.memect.com/?p=229
  • 百万次Hubway游乐设施: http ://hubwaydatachallenge.org/trip-history-data/
  • 纽约市出租车行程数据2013(FOIA / FOIL): https : //archive.org/details/nycTaxiTripData2013
  • OpenFlights(机场,航空公司和路线数据): http : //openflights.org/data.html
  • RITA航空公司准时性能数据: http : //www.transtats.bts.gov/Tables.asp? DB_ID = 120
  • RITA运输数据收集: http : //www.transtats.bts.gov/DataIndex.asp
  • 伦敦交通: http : //www.tfl.gov.uk/info-for/open-data-users/our-feeds
  • 美国货运分析框架: http : //ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm

政府

  • 存档它: https : //www.archive-it.org/explore?show=Collections
  • 澳大利亚: http : //www.abs.gov.au/AUSSTATS/abs@.nsf/DetailsPage/3301.02009?OpenDocument
  • 加拿大: http : //www.data.gc.ca/default.asp?lang= En&n =5BCD274E-1
  • 芝加哥: https : //data.cityofchicago.org/
  • FDA: https : //open.fda.gov/index.html
  • 美联储统计: http : //www.fedstats.gov/cgi-bin/A2Z.cgi
  • 卫报世界各国政府: http : //www.guardian.co.uk/world-government-data
  • HUD: http : //www.huduser.org/portal/datasets/pdrdatas.html
  • 伦敦的Datastore,英国: http : //data.london.gov.uk/dataset
  • 新西兰: http : //www.stats.govt.nz/browse_for_stats.aspx
  • 纽约市betanyc: http ://betanyc.us/
  • 纽约市开放数据: http : //nycplatform.socrata.com/
  • 经合组织: http : //www.oecd.org/document/0,3746,en_2649_201185_46462759_1_1_1_1,00.html
  • RITA: http : //www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp
  • 旧金山数据集: http : //datasf.org/
  • 世界银行: http : //wdronline.worldbank.org/
  • 英国政府数据: http : //data.gov.uk/data
  • 美国人口普查局: http : //www.census.gov/data.html
  • 美国联邦政府机构: http : //www.data.gov/metric
  • 美国联邦政府数据目录: http : //catalog.data.gov/dataset
  • 美国公开政府: http : //www.data.gov/open-gov/
  • 英国2011年人口普查开放地图集计划: http : //www.alex-singleton.com/2011-census-open-atlas-project/
  • 联合国: http : //data.un.org/
  • 美国疾病预防控制中心公共卫生数据集: http : //www.cdc.gov/nchs/data_access/ftp_data.htm

数据挑战

  • 机器学习面临的挑战: http : //www.chalearn.org/
  • ICWSM数据挑战(自2009年起): http ://icwsm.cs.umbc.edu/
  • Kaggle比赛数据: http ://www.kaggle.com/
  • 腾讯2012年KDD杯: https : //www.kddcup2012.org/
  • Netflix奖: http : //www.netflixprize.com/leaderboard
  • Yelp数据集挑战: http : //www.yelp.com/dataset_challenge

机器学习

  • 易趣在线拍卖: http : //www.modelingonlineauctions.com/datasets
  • IMDb数据库: http : //www.imdb.com/interfaces
  • 龙骨库: http : //sci2s.ugr.es/keel/datasets.php
  • 贷款俱乐部贷款数据: https : //www.lendingclub.com/info/download-data.action
  • 机器学习数据集储存库: http : //mldata.org/
  • 百万宋数据集: http : //blog.echonest.com/post/3639160982/million-song-dataset
  • 更多的歌曲数据集: http : //labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
  • MovieLens数据集: http : //datahub.io/dataset/movielens
  • RDataMining R和数据挖掘电子书数据: http ://www.rdatamining.com/data
  • 在地球上注册的陨石: http : //www.analyticbridge.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
  • SF餐厅数据集: http : //missionlocal.org/san-francisco-restaurant-health-inspections/
  • UCI机器学习库: http : //archive.ics.uci.edu/ml/
  • 多伦多大学Delve数据集: http : //www.cs.toronto.edu/~delve/data/datasets.html
  • 雅虎评级和分类数据: http ://webscope.sandbox.yahoo.com/catalog.php?datatype =r

自然语言

  • 上下文中有4千万个实体: https : //code.google.com/p/wiki-links/downloads/list
  • ClueWeb09 FACC: http ://lemurproject.org/clueweb09/FACC1/
  • ClueWeb12 FACC: http ://lemurproject.org/clueweb12/FACC1/
  • Flickr个人分类法: http : //www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
  • Google Books Ngrams: http ://aws.amazon.com/datasets/8172056142375670
  • Google Web 5gram,2006(1T): https ://catalog.ldc.upenn.edu/LDC2006T13
  • Gutenberg电子书列表: http : //www.gutenberg.org/wiki/Gutenberg : Offline_Catalogs
  • Hansards: http ://www.isi.edu/natural-language/download/hansard/
  • 机器翻译: http : //statmt.org/wmt11/translation-task.html#download
  • 短信垃圾邮件收集: http : //www.dt.fee.unicamp.br/~tiago/smsspamcollection/
  • USENET语料库: http : //www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
  • WordNet: http : //wordnet.princeton.edu/wordnet/download/

image processing

  • 2GB的猫的照片: http : //bit.do/UJZZ
  • 人脸识别基准: http : //www.face-rec.org/databases/
  • ImageNet: http : //www.image-net.org/

时间序列

  • 时间序列数据库: https : //datamarket.com/data/list/?q= provider: tsdl
  • 加州大学河滨分校时间系列: http : //www.cs.ucr.edu/~eamonn/time_series_data/

社会科学

  • 中国酒店入住/退房数据: http : //www.360doc.com/content/13/1105/13/7863900_326788919.shtml
  • CMU安然电子邮箱: http : //www.cs.cmu.edu/~enron/
  • Facebook的社交networking(自2007年): http : //law.di.unimi.it/datasets.php
  • Facebook100(2005): https : //archive.org/details/oxford-2005-facebook-matrix
  • Foursquare(2010,2011): http ://www.public.asu.edu/~hgao16/dataset.html
  • Foursquare(UMN / Sarwat,2013): https : //archive.org/details/201309_foursquare_dataset_umn
  • 一般社会调查(GSS): http : //www3.norc.org/GSS+Website/
  • GetGlue(用户评分电视节目): http : //getglue-data.s3.amazonaws.com/getglue_sample.tar.gz
  • GitHub存档: http : //www.githubarchive.org/
  • ICPSR: http : //www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp
  • 移动社交networking(UMASS): https ://kdl.cs.umass.edu/display/public/Mobile+Social+Networks
  • PewResearch互联网项目: http ://www.pewinternet.org/datasets/pages/2/
  • 社交networking: http : //www.cs.cmu.edu/~jelsas/data/ancestry.com/
  • SourceForge图: http : //www.nd.edu/~oss/Data/data.html
  • 泰坦尼克号生存数据集: https : //github.com/caesar0301/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip
  • Twitter图: http : //an.kaist.ac.kr/traces/WWW2010.html
  • 加州大学伯克利分校的D-Lab档案: http ://ucdata.berkeley.edu/
  • 加州大学洛杉矶分校社会科学数据存档: http : //dataarchives.ss.ucla.edu/Home.DataPortals.htm
  • UNIMI社交networking数据集: http ://law.di.unimi.it/datasets.php
  • 世界各地的大学: http : //univ.cc/
  • UPJOHN就业研究: http ://www.upjohn.org/erdc/erdc.html
  • 雅虎图表和社交数据: http ://webscope.sandbox.yahoo.com/catalog.php?datatype =g
  • Youtube Graph(2007,2008): http : //netsg.cs.sfu.ca/youtubedata/

复杂的networking

  • CrossRef DOIurl: https : //archive.org/details/doi-urls
  • DBLP引用数据集: https : //kdl.cs.umass.edu/display/public/DBLP
  • NBER专利引用: http : //nber.org/patents/
  • NIST复杂的networking数据收集: http : //math.nist.gov/~RPozo/complex_datasets.html
  • 蛋白质 – 蛋白质相互作用networking: http : //vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
  • PyPI和Maven依赖networking: http : //ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
  • Scopus引用数据库: http : //www.elsevier.com/online-tools/scopus
  • Stanford GraphBase(Steven Skiena): http ://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
  • 斯坦福大型networking数据集合: http : //snap.stanford.edu/data/
  • 科布伦茨networkingcollections: http : //konect.uni-koblenz.de/
  • UCInetworking数据库: http :
  • UFL稀疏matrix集合: http : //www.cise.ufl.edu/research/sparse/matrices/
  • UNIMI大型networking图: http ://law.di.unimi.it/datasets.php
  • WSUgraphics数据库: http : //www.eecs.wsu.edu/mgd/gdb.html

计算机networking

  • 3.5B网页: http : //www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
  • 53.5B网页点击: http ://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
  • CAIDA互联网数据集: http : //www.caida.org/data/overview/
  • ClueWeb09: http ://lemurproject.org/clueweb09/
  • ClueWeb12: http ://lemurproject.org/clueweb12/
  • CommonCrawl Web Data: http ://commoncrawl.org/the-data/get-started/
  • 达特茅斯CRAWDAD无线数据集: http ://crawdad.cs.dartmouth.edu/
  • OpenMobileData(MobiPerf): https ://console.developers.google.com/storage/openmobiledata_public/
  • UCSDnetworking望远镜: http : //www.caida.org/projects/network_telescope/

数据SE

  • 学术种子: http : //academictorrents.com/
  • Datahub.io:http://datahub.io/dataset
  • DataMarket: https ://datamarket.com/data/list/ ? q = all
  • 哈佛数据报: http ://thedata.harvard.edu/dvn/
  • Statista: http : //www.statista.com/
  • Freebase: http ://www.freebase.com/

公共的多维生素

  • 亚马逊: http : //aws.amazon.com/datasets
  • Archive.org数据集: https : //archive.org/details/datasets
  • CMU JASA数据存档: http : //lib.stat.cmu.edu/jasadata/
  • CMU StatLab集合: http ://lib.stat.cmu.edu/datasets/
  • Data360: http ://www.data360.org/index.aspx
  • Datamob.org:http://datamob.org/datasets
  • Google: http : //www.google.com/publicdata/directory
  • infochimps: http : //www.infochimps.com/
  • KDNuggets数据收集: http ://www.kdnuggets.com/datasets/index.html
  • Numbray: http ://numbrary.com/
  • RevolutionAnalytics集合: http : //www.revolutionanalytics.com/subscriptions/datasets/
  • 样本R数据集: http : //stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html
  • Stats4Stem R数据集: http : //www.stats4stem.org/data-sets.html
  • StatSci.org:http://www.statsci.org/datasets.html
  • 华盛顿邮报列表: http : //www.washingtonpost.com/wp-srv/metro/data/datapost.html
  • 加州大学洛杉矶分校数据收集: http ://wiki.stat.ucla.edu/socr/index.php/SOCR_Data
  • 不明飞行物报告: http : //www.nuforc.org/webreports.html
  • Wikileaks 911 pager拦截:http: //911.wikileaks.org/files/index.html
  • Yahoo Webscope: http ://webscope.sandbox.yahoo.com/catalog.php

补充collections

  • DataWrangling: http ://www.datawrangling.com/some-datasets-available-on-the-web
  • Inside-r: http : //www.inside-r.org/howto/finding-data-internet
  • Quora: http : //www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
  • RS Collection 100+: http : //rs.io/2014/05/29/list-of-data-sets.html
  • StaTrek: http ://hsiamin.com/posts/2014/10/23/leveraging-open-data-to-understand-urban-lives/

只是一个想法:

  • USGS地理名称数据库
  • 美国农业部植物检查表
  • 任何一个国家地理信息系统存储库,例如NH的GRANIT

那么对于Web服务器日志,你总是可以生成你需要的格式。 如果你要testing代码等等,它将不得不根据你想要存储/parsing的字段来定制。

对于用于数据库性能基准testing的数据集,您可能需要查看可为您生成数据的工具。 红门有很好的一个不太多的钱。

Google Fusion Tables有一些。

http://tables.googlelabs.com/

数据集也可以在这里find 。

Kaggle.com经常面临数据挑战。 数据集覆盖了广泛的范围:医疗保健提供者数据到信用历史信息。 也许有什么是你在追求什么。

http://Quandl.com拥有从互联网上搜集的超过1000万的数据集。; 关于这个资源的好处是它提供了一种访问所有数据的方法。 该网站有一个免费的Excel插件或R,Python,Ruby等库

我很惊讶没有人提到Google N-Grams。 有关N-Grams的更多信息,请访问http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html

也许有些数据库被用作人脸识别algorithm的训练集: face-rec.org

那么这个是新的,它背后有一个挑战:

百万首歌曲数据集挑战