万维网最大的网站运行着哪些数据库?

这个问题是为了作为主要网站使用的数据库及其configuration的列表,对于任何想将其网站扩展到Twitter,Facebook甚至谷歌的大小的人来说都是一个很好的参考。

请保持你的答案最低限度,并确保引用任何使用的来源。

编辑:

另外,请加粗网站名称和数据库以便于扫描。

Facebook.com

  • Hive (Hadoop的数据仓库,支持表和一个名为hiveQL的SQL变体)。 用于“简单的摘要工作,商业智能和机器学习以及许多其他应用程序”
  • Cassandra (多维分布式键值存储)。 目前用于Facebook的私人消息。

目前在Hive数据存储的单个群集中运行610(即将成为1000个)Hadoop节点。 Hive和Cassandra都是由Facebook开源的。

Facebook统计:

  • 超过2亿活跃用户
  • 超过1亿用户至less每天loginFacebook一次
  • 超过3000万用户每天至less更新一次状态
  • 平均用户在该网站上有120个朋友

资料来源:

堆栈溢出 – SQL Server。

杰夫·阿特伍德写了一篇很好的博客文章

https://blog.stackoverflow.com/2008/09/what-was-stack-overflow-built-with/

LinkedIn.com

  • Oracle (关系数据库)
  • MySQL (关系数据库)

数据库在多台服务器上复制以获得高可用性。 每个特定的服务使用它自己的域特定的数据库。

LinkedIn统计:

  • 2200万成员
  • 每月有4百万以上的访问者
  • 每天4000万页面浏览量
  • 每天200万次search

资料来源:

Flickr使用MySQL

YouTube使用MySQL,但他们正在转向Google的BigTable

Myspace使用SQL Server

维基百科使用MySQL

Microsoft.com

  • SQL Server (这里不奇怪)

Microsoft.com统计:

  • 每月2.5亿次访问。
  • 每天7000万页面浏览量。
  • 每秒15,000个连接。
  • 总共80个Web服务器平均保持35,000个并发连接。

资料来源:

Yahoo.com

  • PostgreSQL (已修改) – 客户端可以连接到群集中的任何节点(或策略受限子集)。 查询从客户端stream向它select连接的服务器。 该节点上的SQL编译器编译并优化单个节点上的查询(无并行性)。

Yahoo.com统计:

  • 每天有240亿件事
  • 2-petabyte,索赔最大的数据库(2008年3月)

资源:

Digg.com

  • MySQL (关系数据库)用于扩展读取
  • MemcacheDB (键值存储)用于扩展写入

两个数据存储都分布在多个服务器上。

Digg统计:

  • 30M用户
  • 每月26M独特
  • 每月20亿个请求
  • 每秒13000个请求,每秒27000个请求的高峰。

资料来源:

Twitter.com

  • MySQL (关系数据库)。
  • Cassandra (多维分布式键值存储)。 Twitter只是“开始在Twitter上使用Cassandra”(见第二个来源)。

在2008年5月,Twitter有1个MySQL实例用于写入多个MySQL从属实例进行读取。

Twitter的统计资料:

  • 用户总数:100万以上
  • 总活跃用户数:每周20万
  • Twitter消息总量:300万/天
  • 5%的Twitter用户占所有活动的75%
  • 在2009年前五个月join的用户中,有72.5%的用户

资料来源:

Google使用BigTable : http : //research.google.com/archive/bigtable.html

PlentyOfFish.com使用Microsoft SQL Server:

http://www.codinghorror.com/blog/archives/001279.html