Tag: bigtable

将大量的有序时间序列数据存储在bigtable衍生物中

我试图弄清楚这些新的数据存储如bigtable,hbase和cassandra究竟是什么。 我使用大量的股票市场数据,数十亿行价格/报价数据,每天可以增加100亿字节(尽pipe这些文本文件通常压缩至less一个数量级)。 这个数据基本上是一些数字,两个或三个短的string和时间戳(通常是毫秒级)。 如果必须为每一行select一个唯一的标识符,我将不得不select整行(因为交换可能会在同一个毫秒内为同一个符号生成多个值)。 我想将这个数据映射到bigtable的最简单方法是使用符号名称和date(这可能会返回一个非常大的时间序列,超过百万个数据点并不是闻所未闻的)。 从阅读他们的描述,看起来像这些系统可以使用多个键。 我还假设十进制数不是键的好select。 其中一些系统(例如Cassandra)声称能够进行范围查询。 在某一天的上午11点到下午1点半之间,我能否有效地查询MSFT的所有值? 如果我想要search给定date的所有符号,并请求价格介于10美元和10.25美元之间的所有符号(所以我正在search这些值,并希望返回结果键)? 如果我想得到两个系列,从另一个减去一个系列,并返回两个系列及其结果,我是否必须在自己的程序中执行他的逻辑? 阅读相关论文似乎表明,这些系统不适合大量的时间序列系统。 但是,如果谷歌地图这样的系统是基于他们的,我认为时间序列也应该起作用。 例如,将时间视为x轴,将价格视为y轴,将符号视为指定位置 – 突然间,它看起来像bigtable应该是时间序列的理想存储区(如果整个地球可以存储,检索,放大和注释,股市数据应该是微不足道的)。 有些专家可以指导我正确的方向,或者澄清任何误解。 谢谢

生活没有JOINs …理解和常见的做法

很多“BAW”(大屁股网站)正在使用数据存储和检索技术,这些技术依赖于具有索引的巨大表格,并且使用不会/不能在查询中使用JOIN的查询(BigTable,HQL等)处理可扩展性和分片数据库。 当你有很多非常相关的数据时,这是如何工作的? 我只能推测,这个join的大部分都是在应用程序方面完成的,但是不会开始变得昂贵? 如果你不得不对几个不同的表进行几个查询来获得信息进行编译呢? 是不是碰到数据库,多次开始比首先使用联接更昂贵? 我想这取决于你有多less数据? 对于通常可用的ORM,他们如何倾向于处理无法使用连接? 在今天使用率很高的ORM中是否有这种支持? 或者大多数需要处理这个级别的数据的项目往往会自行推出? 所以这不适用于我目前正在进行的任何项目,但现在我已经有好几个月的时间了,我只能猜测“最佳实践”是什么。 我从来没有必要在我的任何项目中解决这个问题,因为他们从未达到需要的规模。 希望这个问题也能帮助其他人。 正如下面有人所说,没有联接,ORM“不工作”。 是否有其他数据访问层已经可供开发人员处理此级别的数据? 编辑:对于一些澄清, Vinko Vrsalovic说: “我相信snicker是想谈论NO-SQL,其中事务数据是非规范化的,并在Hadoop或BigTable或Cassandrascheme中使用。 这就是我所说的。 奖励积分为那些谁赶上xkcd参考。

Google云端Bigtable与Google云端数据存储

Google Cloud Bigtable和Google Cloud Datastore / App Engine数据存储之间有什么区别,主要的实用优势和劣势是什么? AFAIK云数据存储build立在Bigtable之上。

什么是SSTable?

在BigTable / GFS和Cassandra术语中,SSTable的定义是什么?

Google使用哪个数据库?

是甲骨文还是MySQL或者他们自己build造的东西?