Tag: bigdata

我怎么知道R中的数据集将会过大?

我将在R中进行一些日志文件分析(除非我不能在R中完成),并且我知道我的数据需要适合RAM(除非我使用某种types的修补程序,比如keyval存储的接口,也许?)。 所以我想知道如何提前告诉我的数据将在RAM中占用多less空间,以及我是否有足够的空间。 我知道我有多less内存(不是很多,在XP下是3GB),而且我知道我的日志文件最终会有多less行和多less列,以及列条目应该是什么数据types(这大概需要检查它读取)。 我如何将这些结合起来,作为在R中进行分析的go / nogo决定? (据推测,R需要能够有一些RAM来做操作,以及保存数据!)我的直接要求的输出是一堆简单的总结统计,频率,意外事件等,所以我可以写一些parsing器/制表符,这将给我输出我需要的短期,但我也想玩很多不同的方法来作为下一步这个数据,所以我看着使用R的可行性。 我已经看到了很多有关R中大数据集的有用build议,我已经阅读并将重读,但是现在我想更好地理解如何去(a)是否应该去(b)去但希望不得不做一些额外的东西,使其易于pipe理,或(c)在太晚之前跑掉,并在其他语言/环境中做某些事情(build议欢迎…!)。 谢谢!

你什么时候开始额外的Elasticsearch节点?

我正在尝试用Elasticsearch取代Solr设置。 这是一个新的设置,还没有看到生产,所以我有很多空间摆弄东西,让他们工作得很好。 我有非常非常大量的数据。 我将一些实时数据编入索引并保存7天(使用_ttl字段)。 我不在索引中存储任何数据(并禁用_source字段)。 我预计我的指数将稳定在200亿左右。 我将把这些数据放入2-3个命名索引中。 到目前为止search性能高达几十亿行是完全可以接受的,但是索引性能是一个问题。 我对ES如何在内部使用分片有点困惑。 我创build了两个ES节点,每个节点都有一个单独的数据目录,每个目录有8个索引和1个副本。 当我查看群集状态时,我只能看到每个节点有一个分片和一个副本。 不是每个节点都保持多个内部运行的索引吗? (检查磁盘上的存储位置显示肯定只有一个Lucene索引存在)。 – 解决了,因为我的索引设置没有从configuration中正确拾取。 现在使用API​​创build索引并指定碎片和副本的数量,现在已经完全产生了我期望看到的结果。 另外,我尝试运行相同ES节点的多个副本(来自相同的configuration),并且它确认已经有一个副本运行并创build了自己的工作区域。 这些新的节点实例似乎也只有一个磁盘索引。 – 现在每个节点实际上使用多个索引,具有多个索引的单个节点已经足够扼杀整个系统,所以这不是问题。 何时启动额外的Elasticsearch节点,以获得最大的索引性能? 我是否应该有多个节点,每个节点运行1个索引1个副本,或者更less的节点有大量的索引? 有没有我的configuration丢失,为了让单个节点做更多的工作? 另外:是否有任何度量值知道什么时候只有HTTP的节点过载? 现在我有一个节点专门用于HTTP,但除了CPU使用率,我不知道它是否行得通。 什么时候启动额外的HTTP节点,并将索引软件拆分为指向不同的节点?

推荐用于R中非常大的数据集处理和机器学习的软件包

看起来R实际上是devise来处理可以完全放入内存的数据集。 什么R包被推荐用于非常大的数据集上的信号处理和机器学习,这些数据集不能被拉入内存? 如果R完全是这样做的错误的方法,我可以接受其他强大的免费build议(例如,如果有一些很好的方法来处理非常大的数据集,scipy)

有没有像Redis DB,但不限于RAM大小?

我正在寻找一个符合这些标准的数据库: 可能是不持久的; 几乎所有的数据库密钥都需要在3-6小时内更新一次(100M +密钥,总大小为100Gb) 能够通过键(或主键)快速select数据 这需要是一个DBMS(所以LevelDB不适合) 数据写入时,数据库集群必须能够提供查询服务(单个节点可以被阻止) 不在内存中 – 我们的数据集将超出内存限制 水平缩放和复制 支持全部重写所有数据(删除数据后,MongoDB不会清空空间) C#和Java支持 这是我使用这样的数据库的过程:我们有一个分析集群,每4-6小时产生100Mlogging(50GB)的数据。 数据是一个“键 – 数组[20]”。 这个数据需要通过一个前端系统以每秒1-10k的速度分配给用户。 平均而言,只有约15%的数据被请求,其余的将在下一个数据集产生的4-6小时内被重写。 我试过了: MongoDB的。 数据存储开销,高碎片整理成本。 Redis的。 看起来很完美,但内存有限,我们的数据超过了它。 所以问题是:有什么像Redis,但不限于RAM大小?

通过ID删除数百万行的最佳方法

我需要从我的PG数据库中删除大约200万行。 我有我需要删除的ID列表。 然而,我试图做到这一点的任何方式都需要数天时间。 我尝试把它们放在一个表中,并以100的批次执行。4天后,这个文件仍在运行,只有297268行被删除。 (我必须从一个ID表中select100个ID,删除IN列表中,从我select的100个ID表中删除)。 我试过了: DELETE FROM tbl WHERE id IN (select * from ids) 这也是永远的。 很难衡量多久,因为我看不到它的进展,直到完成,但查询仍在运行2天后。 只要find从表中删除的最有效的方法时,我知道要删除的具体ID,并有数以百万计的ID。

如何开始使用大数据分析

我一直是R的很长一段时间的用户,并且最近开始使用Python。 使用传统的RDBMS系统进行数据仓库,使用R / Python进行数据处理,我觉得现在需要用大数据分析来解决问题。 我想知道如何开始处理大数据。 – 如何从Map / Reduce和Hadoop的使用开始 如何利用我在R和Python方面的技能来开始大数据分析。 例如使用Python Disco项目。 使用RHIPE软件包并查找玩具数据集和问题区域。 find正确的信息,让我决定是否需要从RDBMStypes数据库转移到NoSQL 总而言之,我想知道如何从小数据开始,逐步build立我在大数据分析方面的技能和诀窍。 感谢您的build议和意见。 我对这个查询的一般性质表示歉意,但是我希望获得关于这个主题的更多的观点。 苛刻

Apache Spark对阿卡

请告诉我Apache Spark和AKKA之间的区别,我知道这两个框架意味着编程分布和并行计算,但我没有看到它们之间的链接或差异。 此外,我想获得适合他们每个人的用例。

快速Hadoop分析(Cloudera Impala与Spark / Shark与Apache Drill)

我想对HDFS中的数据做一些“接近实时”的数据分析(类似于OLAP)。 我的研究表明,与Apache Hive相比,上述三个框架报告了显着的性能提升。 有没有人有任何一个实际的经验? 不仅关系到performance,而且关乎稳定?

如何将HiveQL查询的结果输出到CSV?

我们想把一个Hive查询的结果放到一个CSV文件中。 我以为这个命令应该是这样的: insert overwrite directory '/home/output.csv' select books from table; 当我运行它,它说它completeld成功,但我永远不能find该文件。 我如何find这个文件,或者我应该以不同的方式提取数据? 谢谢!

Apache Spark与Apache Storm

Apache Spark和Apache Storm有什么区别? 每个适合的用例是什么?