请告诉我Apache Spark和AKKA之间的区别,我知道这两个框架意味着编程分布和并行计算,但我没有看到它们之间的链接或差异。 此外,我想获得适合他们每个人的用例。
我想知道关于云计算和分布式计算的差异。 我读了一篇关于云计算的文章,感觉到云计算和分布式计算之间有某种联系,所以想问一下技术之间的区别。 另外,如果有人能指向我的云计算的有用资源,它将不胜感激。 谢谢
我对卡夫卡相对较新。 我已经做了一些实验,但有些事情我不清楚消费者抵消。 根据我的理解,当一个消费者启动时,它将开始读取的偏移量由configuration设置auto.offset.reset (如果我错了,请纠正我)。 现在说,例如,主题中有10条消息(偏移0到9),消费者在发生故障之前(或者在杀死消费者之前)恰好消耗了5条消息。 然后说我重新启动消费者的过程。 我的问题是: 如果auto.offset.reset被设置为smallest ,它是否总是开始从偏移0消耗? 如果auto.offset.reset被设置为largest ,它是否会开始消耗偏移5? 这种情况下的行为总是具有确定性吗? 如果我的问题中有任何不清楚的地方,请不要犹豫。 提前致谢。
我读集群模式概述 ,我仍然无法理解Spark Standalone集群中的不同进程和并行性。 工作人员是否是JVMstream程? 我运行了bin\start-slave.sh ,发现它产生了一个实际上是JVM的worker。 根据上述链接,执行程序是在运行任务的工作节点上为应用程序启动的进程。 执行者也是一个JVM。 这些是我的问题: 执行程序是每个应用程序。 那么,一个工人的angular色是什么? 是否与执行者协调并将结果传回司机? 还是司机直接与执行人谈话? 如果是这样,那么工人的目的是什么? 如何控制应用程序的执行者数量? 3.可以在执行器内部并行运行任务吗? 如果是这样,如何configuration执行程序的线程数? 工作者,执行者和执行者核心(–total-executor-cores)之间的关系是什么? 每节点有更多的工人意味着什么? 更新 让我们举例来更好地理解。 示例1:具有5个工作节点的独立群集(每个节点具有8个内核)当我使用默认设置启动应用程序时。 示例2与示例1相同的群集configuration,但我使用以下设置运行应用程序–executor-cores 10 –total-executor-cores 10。 示例3与示例1相同的群集configuration,但我使用以下设置运行应用程序–executor-cores 10 –total-executor-cores 50。 示例4与示例1相同的群集configuration,但我使用以下设置运行应用程序–executor-cores 50 –total-executor-cores 50。 示例5与示例1相同的群集configuration,但我使用以下设置运行应用程序–executor-cores 50 –total-executor-cores 10。 在每个例子中,有多less个执行者? 每个执行器有多less个线程? 多less个核心? 执行者的数量是如何决定的? 它是否总是和工人的数量一样?
如果你有十亿个数字和一百台电脑,找出这些数字中位数的最好方法是什么? 我拥有的一个解决scheme是: 在电脑之间平均分配一套。 sorting他们。 find每个集合的中位数。 对中位数进行sorting。 从最低位到最高位中间一次合并两组。 如果我们有m1 < m2 < m3 …那么首先合并Set1和Set2并在结果集合中,我们可以丢弃所有低于Set12 (合并)的中值的Set12 。 所以在任何时候我们都有相同的尺寸。 顺便说一下,这不能以平行的方式完成。 有任何想法吗?
就RDD持久性而言,spark cache()和persist()在spark中有什么区别?
我正在尝试了解ZooKeeper,它是如何工作的以及它是如何工作的。 而我完全困惑。 有什么可以和ZooKeeper相媲美的应用吗? 如果你知道,那么你会如何描述ZooKeeper的外行? (考虑到我是一个) 我已经尝试过Apache维基,zookeeper sourceforge …但我仍然无法与之联系。 任何帮助,将不胜感激! 我只是阅读通过http://zookeeper.sourceforge.net/index.sf.shtml ,所以没有更多的这样的服务? 这只是简单的复制服务器服务?
我希望有人告诉我在哪里寻找如何在RMI中的客户端和服务器之间进行会话,即为了search的目的,这个概念的名称是什么?
根据学习星火 请记住,重新分区您的数据是一个相当昂贵的操作。 Spark还有一个名为coalesce()的repartition()的优化版本,它允许避免数据移动,但只有在减lessRDD分区的数量的时候。 我得到的一个区别是,重新分区()分区的数量可以增加/减less,但与coalesce()分区的数量只能减less。 如果分区分散在多台机器上,并且运行coalesce(),它如何避免数据移动?
脚本 有没有人有使用Winsock的C ++中的对等(p2p)networking的好例子? 这是我对一个特别需要使用这种技术的客户的要求(上帝知道为什么)。 我需要确定这是否可行。 任何帮助将不胜感激。 编辑 我想避免使用库,以便我可以了解底层的源代码,并进一步了解我的知识。