Tag: mclapply

pandas.apply并行化的状态()

在过去的几年中,有几篇文章涉及到pandas.apply()的parallelization ,或者是描述可以通过将数据结构化为数据pandas.apply()来解决的问题,以及如果实现了parallelization ,使用pandas.apply() 。 我向这里的专家们提出这个问题,这个能力的状态是什么, R已经有了这个能力。 目前没有干净的标准解决scheme。 重新编写整个函数和脚本来处理build议的解决方法是非常繁琐的。 Pythonpandas多处理应用 并行化后,pandasgroupby R中的并行和多核处理 Python多处理pool.map多个参数 在Python中的并行处理 通过multiprocessing.pool.map传递kwargs 传递参数和manager.dict在Python 2.7中的多处理 有没有一个简单的基于进程的python平行映射? pandas与rpy2和多处理 如何通过Sparkasynchronous地将函数应用于数据框的子集? 高效地将一个函数应用到分组的pandasDataFrame上 python dask DataFrame,支持(trivially parallelizable)row apply? Python多处理作业Celery任务,但AttributeError 在pandas python中并行化应用函数 在groupby上工作

有没有办法跟踪mclapply的进度?

我喜欢plyr's llply的setting .progress = 'text' 。 然而,由于列表项目被发送到各个核心,然后在最后进行整理,所以它引起我的焦虑,不知道mclapply (从multicore包装)到多远。 我一直在输出消息,如*currently in sim_id # ….*但这不是很有帮助,因为它没有给我一个指标列表项目完成百分比(虽然这是有帮助的,知道我的脚本没有被卡住和移动)。 有人可以提出其他的想法,让我看看我的.Rout文件,并获得进步的感觉? 我想过添加一个手动计数器,但是看不到我将如何实现,因为mclapply必须完成处理所有列表项,才能发出任何反馈。