大型公共数据集?
我正在寻找一些大型的公共数据集,特别是:
-
大型样本Web服务器日志已被匿名。
-
用于数据库性能基准testing的数据集。
任何其他的大型公共数据集的链接将不胜感激。 我已经了解了亚马逊的公共数据集: http : //aws.amazon.com/publicdatasets/
1.大型样本Web服务器日志已被匿名。
这些工作开始于:
- UCI机器学习库
- 匿名的Microsoft Web数据
- MSNBC.com匿名networking数据
- Syskill和Webert Web页面评级
除此之外,还有许多其他数据可供使用(请参阅其他答案的色域),但这是符合您原始标准的最低水果。 作为奖励,他们有一个联系链接,如果你有他们可能知道的具体需求。
2.用于数据库性能基准testing的数据集。
这听起来有点不恰当,因为你需要描述明确的 algorithm 问题的经验数据集。 具体来说,这听起来像是在试图find一组数据,您可以使用这些数据来实时testing和testing各种数据库系统,使用定义良好的规范化关系数据,这些数据可以用作一组testing用例来确定最有效的解决scheme,满足您的需求。
我不同意这种做法。 而不是find一大堆的数据库系统和他们的jar头实现,这是更好的探索这些系统的algorithm 保证作为您的第一个端口。 一旦确定了满足您的需求的algorithm约束条件,您可以磨合一系列的解决scheme,您可以对索引,sorting,search,插入,删除和检索等效率进行基准testing。
维基百科提供了关于数据库testing概念的简要文章 ,您可以使用这些概念来确定和编写基准testing性能的testing用例。 例如,您可以使用不可知的数据访问接口,如JDBC和JDBC Benchmark来确定每个操作的相对时间。 从这里,你可以磨合一个正确的解决scheme。
总之,先去研究确定数据库保证。 一旦确定了一套候选解决scheme,您可以通过testing(或以其他方式确定)每个所需操作的恒定时间性能来select这些解决scheme。
基于我的研究中的Quora答案和个人collections,在GitHub上创build并更新了一个非常棒的公共数据库存储库:
以下是此列表的快照版本。 有关最新的列表,请访问Github :
这个公共数据源列表是从博客,答案和用户响应中收集和整理的。 下面列出的大部分数据都是免费的,但有些则不是。 该列表来自https://github.com/caesar0301/awesome-public-datasets 。
气候
- 澳大利亚天气: http : //www.bom.gov.au/climate/dwo/
- 气候资料: http : //www.cru.uea.ac.uk/cru/data/temperature/#datter和ftp://ftp.cmdl.noaa.gov/
- 自1929年以来的全球气候数据: http : //www.tutiempo.net/cn/Climate
- NOAA白令海气候: http : //www.beringclimate.noaa.gov/
- NOAA气候资料集: http : //ncdc.noaa.gov/data-access/quick-links
- 全球历史天气: http : //www.wunderground.com/history/index.html
经济学
- 美国经济屁股。 (AEA): http ://www.aeaweb.org/RFE/toc.php?show=complete
- EconData(UMD): http ://inforumweb.umd.edu/econdata/econdata.html
- 互联网产品代码数据库: http : //www.upcdatabase.com/
- 世界银行: http : //data.worldbank.org/indicator
金融
- CBOE期货交易所: http : //cfe.cboe.com/Data/
- Google财经: https : //www.google.com/finance
- Google趋势: http : //www.google.com/trends? q = google&ctab =0& geo = all&date = all&sort =0
- 纳斯达克: https : //data.nasdaq.com/
- OANDA: http : //www.oanda.com/
- 俄勒冈州立大学财务数据: http : //fisher.osu.edu/fin/osudata.htm
- Quandl: http ://www.quandl.com/
- 圣路易斯联邦: http : //research.stlouisfed.org/fred2/
- 雅虎财经: http : //finance.yahoo.com/
生物学
- CRCNS: http ://crcns.org/data-sets
- Gene Expression Omnibus: http : //www.ncbi.nlm.nih.gov/geo/
- 人类微生物组计划: http : //www.hmpdacc.org/reference_genomes/reference_genomes.php
- 麻省理工学院癌症基因组学数据: http : //www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
- NIH微arrays数据: ftp : //ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/
- 蛋白质结构: http : //www.infobiotic.net/PSPbenchmarks/
- 公共基因数据: http : //www.pubgene.org/
- 斯坦福大学微arrays数据: http : //smd.stanford.edu/
- UniGene: http ://www.ncbi.nlm.nih.gov/unigene
物理
- NASA: http : //nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html
卫生保健
- EHDP大健康数据集: http ://www.ehdp.com/vitalnet/datasets.htm
- Gapminder: http ://www.gapminder.org/data/
- Medicare数据文件: http : //go.cms.gov/19xxPN4
地球空间
- EOSDIS: http ://sedac.ciesin.columbia.edu/data/sets/browse
- 事实全球地理位置数据: http : //www.factual.com/
- 地理空间数据: http : //geodacenter.asu.edu/datalist/
运输
- 航空公司数据(2009 ASA Challenge): http : //stat-computing.org/dataexpo/2009/the-data.html
- 机场及其位置: http : //www.infochimps.com/datasets/airports-and-their-locations
- 自行车共享数据系统: https : //github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems
- 美国国内航class1990年至2009年的边缘数据: http : //data.memect.com/?p=229
- 百万次Hubway游乐设施: http ://hubwaydatachallenge.org/trip-history-data/
- 纽约市出租车行程数据2013(FOIA / FOIL): https : //archive.org/details/nycTaxiTripData2013
- OpenFlights(机场,航空公司和路线数据): http : //openflights.org/data.html
- RITA航空公司准时性能数据: http : //www.transtats.bts.gov/Tables.asp? DB_ID = 120
- RITA运输数据收集: http : //www.transtats.bts.gov/DataIndex.asp
- 伦敦交通: http : //www.tfl.gov.uk/info-for/open-data-users/our-feeds
- 美国货运分析框架: http : //ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm
政府
- 存档它: https : //www.archive-it.org/explore?show=Collections
- 澳大利亚: http : //www.abs.gov.au/AUSSTATS/abs@.nsf/DetailsPage/3301.02009?OpenDocument
- 加拿大: http : //www.data.gc.ca/default.asp?lang= En&n =5BCD274E-1
- 芝加哥: https : //data.cityofchicago.org/
- FDA: https : //open.fda.gov/index.html
- 美联储统计: http : //www.fedstats.gov/cgi-bin/A2Z.cgi
- 卫报世界各国政府: http : //www.guardian.co.uk/world-government-data
- HUD: http : //www.huduser.org/portal/datasets/pdrdatas.html
- 伦敦的Datastore,英国: http : //data.london.gov.uk/dataset
- 新西兰: http : //www.stats.govt.nz/browse_for_stats.aspx
- 纽约市betanyc: http ://betanyc.us/
- 纽约市开放数据: http : //nycplatform.socrata.com/
- 经合组织: http : //www.oecd.org/document/0,3746,en_2649_201185_46462759_1_1_1_1,00.html
- RITA: http : //www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp
- 旧金山数据集: http : //datasf.org/
- 世界银行: http : //wdronline.worldbank.org/
- 英国政府数据: http : //data.gov.uk/data
- 美国人口普查局: http : //www.census.gov/data.html
- 美国联邦政府机构: http : //www.data.gov/metric
- 美国联邦政府数据目录: http : //catalog.data.gov/dataset
- 美国公开政府: http : //www.data.gov/open-gov/
- 英国2011年人口普查开放地图集计划: http : //www.alex-singleton.com/2011-census-open-atlas-project/
- 联合国: http : //data.un.org/
- 美国疾病预防控制中心公共卫生数据集: http : //www.cdc.gov/nchs/data_access/ftp_data.htm
数据挑战
- 机器学习面临的挑战: http : //www.chalearn.org/
- ICWSM数据挑战(自2009年起): http ://icwsm.cs.umbc.edu/
- Kaggle比赛数据: http ://www.kaggle.com/
- 腾讯2012年KDD杯: https : //www.kddcup2012.org/
- Netflix奖: http : //www.netflixprize.com/leaderboard
- Yelp数据集挑战: http : //www.yelp.com/dataset_challenge
机器学习
- 易趣在线拍卖: http : //www.modelingonlineauctions.com/datasets
- IMDb数据库: http : //www.imdb.com/interfaces
- 龙骨库: http : //sci2s.ugr.es/keel/datasets.php
- 贷款俱乐部贷款数据: https : //www.lendingclub.com/info/download-data.action
- 机器学习数据集储存库: http : //mldata.org/
- 百万宋数据集: http : //blog.echonest.com/post/3639160982/million-song-dataset
- 更多的歌曲数据集: http : //labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
- MovieLens数据集: http : //datahub.io/dataset/movielens
- RDataMining R和数据挖掘电子书数据: http ://www.rdatamining.com/data
- 在地球上注册的陨石: http : //www.analyticbridge.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
- SF餐厅数据集: http : //missionlocal.org/san-francisco-restaurant-health-inspections/
- UCI机器学习库: http : //archive.ics.uci.edu/ml/
- 多伦多大学Delve数据集: http : //www.cs.toronto.edu/~delve/data/datasets.html
- 雅虎评级和分类数据: http ://webscope.sandbox.yahoo.com/catalog.php?datatype =r
自然语言
- 上下文中有4千万个实体: https : //code.google.com/p/wiki-links/downloads/list
- ClueWeb09 FACC: http ://lemurproject.org/clueweb09/FACC1/
- ClueWeb12 FACC: http ://lemurproject.org/clueweb12/FACC1/
- Flickr个人分类法: http : //www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
- Google Books Ngrams: http ://aws.amazon.com/datasets/8172056142375670
- Google Web 5gram,2006(1T): https ://catalog.ldc.upenn.edu/LDC2006T13
- Gutenberg电子书列表: http : //www.gutenberg.org/wiki/Gutenberg : Offline_Catalogs
- Hansards: http ://www.isi.edu/natural-language/download/hansard/
- 机器翻译: http : //statmt.org/wmt11/translation-task.html#download
- 短信垃圾邮件收集: http : //www.dt.fee.unicamp.br/~tiago/smsspamcollection/
- USENET语料库: http : //www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
- WordNet: http : //wordnet.princeton.edu/wordnet/download/
image processing
- 2GB的猫的照片: http : //bit.do/UJZZ
- 人脸识别基准: http : //www.face-rec.org/databases/
- ImageNet: http : //www.image-net.org/
时间序列
- 时间序列数据库: https : //datamarket.com/data/list/?q= provider: tsdl
- 加州大学河滨分校时间系列: http : //www.cs.ucr.edu/~eamonn/time_series_data/
社会科学
- 中国酒店入住/退房数据: http : //www.360doc.com/content/13/1105/13/7863900_326788919.shtml
- CMU安然电子邮箱: http : //www.cs.cmu.edu/~enron/
- Facebook的社交networking(自2007年): http : //law.di.unimi.it/datasets.php
- Facebook100(2005): https : //archive.org/details/oxford-2005-facebook-matrix
- Foursquare(2010,2011): http ://www.public.asu.edu/~hgao16/dataset.html
- Foursquare(UMN / Sarwat,2013): https : //archive.org/details/201309_foursquare_dataset_umn
- 一般社会调查(GSS): http : //www3.norc.org/GSS+Website/
- GetGlue(用户评分电视节目): http : //getglue-data.s3.amazonaws.com/getglue_sample.tar.gz
- GitHub存档: http : //www.githubarchive.org/
- ICPSR: http : //www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp
- 移动社交networking(UMASS): https ://kdl.cs.umass.edu/display/public/Mobile+Social+Networks
- PewResearch互联网项目: http ://www.pewinternet.org/datasets/pages/2/
- 社交networking: http : //www.cs.cmu.edu/~jelsas/data/ancestry.com/
- SourceForge图: http : //www.nd.edu/~oss/Data/data.html
- 泰坦尼克号生存数据集: https : //github.com/caesar0301/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip
- Twitter图: http : //an.kaist.ac.kr/traces/WWW2010.html
- 加州大学伯克利分校的D-Lab档案: http ://ucdata.berkeley.edu/
- 加州大学洛杉矶分校社会科学数据存档: http : //dataarchives.ss.ucla.edu/Home.DataPortals.htm
- UNIMI社交networking数据集: http ://law.di.unimi.it/datasets.php
- 世界各地的大学: http : //univ.cc/
- UPJOHN就业研究: http ://www.upjohn.org/erdc/erdc.html
- 雅虎图表和社交数据: http ://webscope.sandbox.yahoo.com/catalog.php?datatype =g
- Youtube Graph(2007,2008): http : //netsg.cs.sfu.ca/youtubedata/
复杂的networking
- CrossRef DOIurl: https : //archive.org/details/doi-urls
- DBLP引用数据集: https : //kdl.cs.umass.edu/display/public/DBLP
- NBER专利引用: http : //nber.org/patents/
- NIST复杂的networking数据收集: http : //math.nist.gov/~RPozo/complex_datasets.html
- 蛋白质 – 蛋白质相互作用networking: http : //vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
- PyPI和Maven依赖networking: http : //ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
- Scopus引用数据库: http : //www.elsevier.com/online-tools/scopus
- Stanford GraphBase(Steven Skiena): http ://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
- 斯坦福大型networking数据集合: http : //snap.stanford.edu/data/
- 科布伦茨networkingcollections: http : //konect.uni-koblenz.de/
- UCInetworking数据库: http :
- UFL稀疏matrix集合: http : //www.cise.ufl.edu/research/sparse/matrices/
- UNIMI大型networking图: http ://law.di.unimi.it/datasets.php
- WSUgraphics数据库: http : //www.eecs.wsu.edu/mgd/gdb.html
计算机networking
- 3.5B网页: http : //www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
- 53.5B网页点击: http ://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
- CAIDA互联网数据集: http : //www.caida.org/data/overview/
- ClueWeb09: http ://lemurproject.org/clueweb09/
- ClueWeb12: http ://lemurproject.org/clueweb12/
- CommonCrawl Web Data: http ://commoncrawl.org/the-data/get-started/
- 达特茅斯CRAWDAD无线数据集: http ://crawdad.cs.dartmouth.edu/
- OpenMobileData(MobiPerf): https ://console.developers.google.com/storage/openmobiledata_public/
- UCSDnetworking望远镜: http : //www.caida.org/projects/network_telescope/
数据SE
- 学术种子: http : //academictorrents.com/
- Datahub.io:http://datahub.io/dataset
- DataMarket: https ://datamarket.com/data/list/ ? q = all
- 哈佛数据报: http ://thedata.harvard.edu/dvn/
- Statista: http : //www.statista.com/
- Freebase: http ://www.freebase.com/
公共的多维生素
- 亚马逊: http : //aws.amazon.com/datasets
- Archive.org数据集: https : //archive.org/details/datasets
- CMU JASA数据存档: http : //lib.stat.cmu.edu/jasadata/
- CMU StatLab集合: http ://lib.stat.cmu.edu/datasets/
- Data360: http ://www.data360.org/index.aspx
- Datamob.org:http://datamob.org/datasets
- Google: http : //www.google.com/publicdata/directory
- infochimps: http : //www.infochimps.com/
- KDNuggets数据收集: http ://www.kdnuggets.com/datasets/index.html
- Numbray: http ://numbrary.com/
- RevolutionAnalytics集合: http : //www.revolutionanalytics.com/subscriptions/datasets/
- 样本R数据集: http : //stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html
- Stats4Stem R数据集: http : //www.stats4stem.org/data-sets.html
- StatSci.org:http://www.statsci.org/datasets.html
- 华盛顿邮报列表: http : //www.washingtonpost.com/wp-srv/metro/data/datapost.html
- 加州大学洛杉矶分校数据收集: http ://wiki.stat.ucla.edu/socr/index.php/SOCR_Data
- 不明飞行物报告: http : //www.nuforc.org/webreports.html
- Wikileaks 911 pager拦截:http: //911.wikileaks.org/files/index.html
- Yahoo Webscope: http ://webscope.sandbox.yahoo.com/catalog.php
补充collections
- DataWrangling: http ://www.datawrangling.com/some-datasets-available-on-the-web
- Inside-r: http : //www.inside-r.org/howto/finding-data-internet
- Quora: http : //www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
- RS Collection 100+: http : //rs.io/2014/05/29/list-of-data-sets.html
- StaTrek: http ://hsiamin.com/posts/2014/10/23/leveraging-open-data-to-understand-urban-lives/
这里有几个。 玩的开心。
http://archive.ics.uci.edu/ml/
http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1
http://gettingpastgo.socrata.com
http://books.google.com/ngrams/
http://medihal.archives-ouvertes.fr
http://timetric.com/public-data/
http://www.dartmouthatlas.org/
只是一个想法:
- USGS地理名称数据库
- 美国农业部植物检查表
- 任何一个国家地理信息系统存储库,例如NH的GRANIT
那么对于Web服务器日志,你总是可以生成你需要的格式。 如果你要testing代码等等,它将不得不根据你想要存储/parsing的字段来定制。
对于用于数据库性能基准testing的数据集,您可能需要查看可为您生成数据的工具。 红门有很好的一个不太多的钱。
Google Fusion Tables有一些。
数据集也可以在这里find 。
Kaggle.com经常面临数据挑战。 数据集覆盖了广泛的范围:医疗保健提供者数据到信用历史信息。 也许有什么是你在追求什么。
http://Quandl.com拥有从互联网上搜集的超过1000万的数据集。; 关于这个资源的好处是它提供了一种访问所有数据的方法。 该网站有一个免费的Excel插件或R,Python,Ruby等库
我很惊讶没有人提到Google N-Grams。 有关N-Grams的更多信息,请访问http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html
也许有些数据库被用作人脸识别algorithm的训练集: face-rec.org
那么这个是新的,它背后有一个挑战:
百万首歌曲数据集挑战