万维网最大的网站运行着哪些数据库?
这个问题是为了作为主要网站使用的数据库及其configuration的列表,对于任何想将其网站扩展到Twitter,Facebook甚至谷歌的大小的人来说都是一个很好的参考。
请保持你的答案最低限度,并确保引用任何使用的来源。
编辑:
另外,请加粗网站名称和数据库以便于扫描。
Facebook.com
- Hive (Hadoop的数据仓库,支持表和一个名为hiveQL的SQL变体)。 用于“简单的摘要工作,商业智能和机器学习以及许多其他应用程序”
- Cassandra (多维分布式键值存储)。 目前用于Facebook的私人消息。
目前在Hive数据存储的单个群集中运行610(即将成为1000个)Hadoop节点。 Hive和Cassandra都是由Facebook开源的。
Facebook统计:
- 超过2亿活跃用户
- 超过1亿用户至less每天loginFacebook一次
- 超过3000万用户每天至less更新一次状态
- 平均用户在该网站上有120个朋友
资料来源:
堆栈溢出 – SQL Server。
杰夫·阿特伍德写了一篇很好的博客文章
https://blog.stackoverflow.com/2008/09/what-was-stack-overflow-built-with/
LinkedIn.com
- Oracle (关系数据库)
- MySQL (关系数据库)
数据库在多台服务器上复制以获得高可用性。 每个特定的服务使用它自己的域特定的数据库。
LinkedIn统计:
- 2200万成员
- 每月有4百万以上的访问者
- 每天4000万页面浏览量
- 每天200万次search
资料来源:
Flickr使用MySQL 。
YouTube使用MySQL,但他们正在转向Google的BigTable 。
Myspace使用SQL Server 。
维基百科使用MySQL 。
Microsoft.com
- SQL Server (这里不奇怪)
Microsoft.com统计:
- 每月2.5亿次访问。
- 每天7000万页面浏览量。
- 每秒15,000个连接。
- 总共80个Web服务器平均保持35,000个并发连接。
资料来源:
Yahoo.com
- PostgreSQL (已修改) – 客户端可以连接到群集中的任何节点(或策略受限子集)。 查询从客户端stream向它select连接的服务器。 该节点上的SQL编译器编译并优化单个节点上的查询(无并行性)。
Yahoo.com统计:
- 每天有240亿件事
- 2-petabyte,索赔最大的数据库(2008年3月)
资源:
Digg.com
- MySQL (关系数据库)用于扩展读取
- MemcacheDB (键值存储)用于扩展写入
两个数据存储都分布在多个服务器上。
Digg统计:
- 30M用户
- 每月26M独特
- 每月20亿个请求
- 每秒13000个请求,每秒27000个请求的高峰。
资料来源:
Twitter.com
- MySQL (关系数据库)。
- Cassandra (多维分布式键值存储)。 Twitter只是“开始在Twitter上使用Cassandra”(见第二个来源)。
在2008年5月,Twitter有1个MySQL实例用于写入多个MySQL从属实例进行读取。
Twitter的统计资料:
- 用户总数:100万以上
- 总活跃用户数:每周20万
- Twitter消息总量:300万/天
- 5%的Twitter用户占所有活动的75%
- 在2009年前五个月join的用户中,有72.5%的用户
资料来源:
Google使用BigTable : http : //research.google.com/archive/bigtable.html
PlentyOfFish.com使用Microsoft SQL Server: