我使用巨大的数据文件,有时我只需要知道这些文件中的行数,通常我打开它们,逐行阅读,直到我到达文件的末尾 我想知道是否有一个更聪明的方法来做到这一点
我正在寻找如何处理我的源代码(Web应用程序)所依赖的大型二进制文件的意见。 目前我们正在讨论几个备选scheme: 手动复制二进制文件。 临:不确定。 Contra:我强烈反对这一点,因为它增加了在build立一个新站点/迁移旧站点时出现错误的可能性。 build立另一个障碍。 用git来pipe理它们。 专业版:删除“忘记”复制重要文件的可能性 Contra:扩大版本库并降低pipe理代码库和checkouts / clone / etc的灵活性需要相当长的一段时间。 分开的存储库。 专业版:检出/克隆源代码的速度一如既往,并且图像被正确存档在自己的存储库中。 Contra:删除在项目上拥有唯一的 git仓库的简单性。 当然会介绍一些我没有想过的事情。 你对此有什么经验/想法? 另外:有没有人有多个git仓库的经验,并在一个项目中pipe理他们? 更新 :这些文件是用于生成包含这些文件的PDF的程序的图像。 文件不会经常变化(如年),但与程序非常相关。 该程序不会没有文件工作。
在主机上有超过10000个大数据文件(每个文件几个千兆字节),其中很少可能在码头容器和容器中使用,可能会创建新文件以保存到主机(可能有100多个容器和所有容器在相同的主机)。 但是出于安全考虑,我们不希望将数据文件安装到docker。 在主机和容器之间共享大文件是一种高性能的方式吗? 例如在主机上写一个服务器来从容器进程发送或接收大量数据? 或者使用mmap? 还是sendfile? (操作系统:Ubuntu 16,和Python是首选)