Tag: 分区

将列表分成n个列表的有效方法

我有一个数组,我想分成n个大小较小的数组,并执行每个操作。 我目前的做法是 用Java中的ArrayLists实现(任何伪代码都可以) for (int i = 1; i <= Math.floor((A.size() / n)); i++) { ArrayList temp = subArray(A, ((i * n) – n), (i * n) – 1); // do stuff with temp } private ArrayList<Comparable> subArray(ArrayList A, int start, int end) { ArrayList toReturn = new ArrayList(); for (int i = start; i […]

HashPartitioner如何工作?

我阅读了HashPartitioner的文档。 不幸的是,除了API调用之外,没有什么可解释的。 我假设HashPartitioner根据密钥的哈希来分配分布式集合。 例如,如果我的数据是 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 所以分区器会把这个分区放到不同的分区中,同一个分区中的键也是一样的。 但是我不明白构造函数参数的意义 new HashPartitoner(numPartitions) //What does numPartitions do? 对于上面的数据集,如果我做了,结果会有什么不同 new HashPartitoner(1) new HashPartitoner(2) new HashPartitoner(10) 那么HashPartitioner究竟如何工作呢?

如何在JavaScript中进行整数除法(在int中获得除法答案不浮点数)?

Javascript中有没有什么function可以让你做整数除法,我的意思是在int中得到除法的答案,而不是浮点数。 var x = 455/10; // Now x is 45.5 // Expected x to be 45 但是我希望x是45.我试图从数字中删除最后一位数字。

卡夫卡:动物园pipe理员是必须的吗?

在卡夫卡,我只想使用一个经纪人,一个主题和一个单一的分区有一个生产者和多个消费者(每个消费者从经纪人获得自己的数据副本)。 鉴于此,我不想使用Zookeeper的开销; 我能不能只使用经纪人? 为什么一个Zookeeper必须?

什么是MYSQL分区?

我已阅读文档( http://dev.mysql.com/doc/refman/5.1/en/partitioning.html ),但我想用你自己的话来说,它是什么以及为什么使用它。 它主要用于多个服务器,所以它不会拖拽一台服务器? 所以,部分数据将在server1上,部分数据将在server2上。 而服务器3将“指向”server1或server2 …是它是如何工作的? 为什么MYSQL文档专注于在同一台服务器上进行分区……如果目的是要在服务器之间进行分布?

MySQL的分区/分片/分裂 – 要走哪条路?

我们有一个大约70GB的InnoDB数据库,我们预计在未来的2到3年内它会增长到几百GB。 大约60%的数据属于一个表格。 目前数据库运行良好,因为我们有一个64 GB RAM的服务器,所以几乎整个数据库都适合内存,但是当数据量会大得多时,我们担心未来。 现在我们正在考虑某种方式来分割表格(特别是那些占据最大部分数据的表格),现在我想知道,最好的办法是什么。 我目前知道的选项是 使用版本5.1附带的MySQL分区 使用某种封装数据分区的第三方库(如hibernate shards) 在我们的应用程序中实现它自己 我们的应用程序基于J2EE和EJB 2.1(希望有一天我们可以切换到EJB 3)。 你会build议什么? 编辑(2011-02-11): 只是更新:目前数据库的大小是380 GB,我们的“大”表的数据大小是220 GB,其索引的大小是36 GB。 所以当整个表格不再适合记忆的时候,索引就是这样。 系统仍然运行良好(仍然在同一个硬件上),我们仍然在考虑对数据进行分区。 编辑(2014-06-04):多一个更新:整个数据库的大小是1.5TB,我们的“大”表的大小是1.1TB。 我们将服务器升级到具有128 GB RAM的4处理器机器(Intel Xeon E7450)。 系统仍然运行良好。 接下来我们要做的是把我们的大桌子放在一个单独的数据库服务器上(我们已经对软件进行了必要的修改),同时升级到具有256GB RAM的新硬件。 这种设置应该持续两年。 然后,我们要么终于开始实施分片解决scheme,要么只购买带有1TB内存的服务器,这将使我们保持一段时间。 编辑(2016-01-18): 我们已经把自己的数据库放在一个单独的服务器上。 目前该数据库的大小约为1.9TB,其他数据库的大小(除“大”之外的所有表)为1.1TB。 当前硬件设置: 惠普ProLiant DL 580 4个Intel(R)Xeon(R)CPU E7-4830 256 GB RAM 这个设置的性能很好。

Apache不接受来自本地主机外部的传入连接

我在机架空间启动了一个CentOS服务器并执行了yum install httpd httpd'd。 然后services httpd start 。 所以,只是准系统。 我可以通过ssh(22)远程访问它的IP地址没有问题,所以没有问题的DNS或任何东西(我认为…),但是当我尝试连接端口80(通过浏览器或其他),我得到拒绝连接。 然而,从本地主机,我可以使用telnet(80),甚至是山猫本身,并得到没有问题。 从外面(我的房子,我的学校,一家当地的咖啡店等),telnet连接22,而不是80。 我使用netstat -tulpn (< – 我不会说谎,我不明白-tulpn部分,但这就是互联网告诉我要做的事情),看看 tcp 0 0 :::80 :::* LISTEN – 因为我相信我应该。 httpd.conf说Listen 80 。 我有services httpd restart很多次。 老实说,我不知道该怎么做。 rackspace在传入的80端口请求上没有防火墙。 我觉得我错过了一些愚蠢的东西,但是现在我已经启动了一个准系统服务器两次,并且已经完成了这个function的思考,我已经用我的修补程序把事情弄糟了,但是都没有成功。 任何帮助是极大的赞赏! (对于冗长的post感到抱歉…) 编辑我被要求发布iptables -L的输出。 所以这里是: Chain INPUT (policy ACCEPT) target prot opt source destination ACCEPT all — anywhere anywhere state RELATED,ESTABLISHED […]

pandas:采样dataframe

我试图读pandas一个相当大的CSV文件,并将其分成两个随机的块,其中一个是10%的数据,另一个是90%。 这是我目前的尝试: rows = data.index row_count = len(rows) random.shuffle(list(rows)) data.reindex(rows) training_data = data[row_count // 10:] testing_data = data[:row_count // 10] 出于某种原因,当我试图在SVM分类器中使用这些DataFrame对象之一时, sklearn抛出这个错误: IndexError: each subindex must be either a slice, an integer, Ellipsis, or newaxis 我觉得我做错了。 有一个更好的方法吗?

Python3整数除法

在Python3 vs Python2.6中,我注意到我可以分割两个整数并得到一个浮点数。 你如何获得Python2.6的行为? 有没有不同的方法得到int / int = int?

哪个更好的select用于除以2的整数?

以下哪种技术是将整数除以2的最佳select,为什么? 技术1: x = x >> 1; 技术2: x = x / 2; 这里x是一个整数。