我正在对Hive提供的存储格式进行一些testing,并使用Parquet和ORC作为主要选项。 我包括ORC一次默认压缩和一次与Snappy。 我已经阅读了很多文件,说明Parquet在时间/空间复杂性方面与ORC相比更好,但是我的testing与我所经历的文件相反。 跟随我的数据的一些细节。 Table A- Text File Format- 2.5GB Table B – ORC – 652MB Table C – ORC with Snappy – 802MB Table D – Parquet – 1.9 GB 就桌子的压缩而言,镶木地板是最差的。 我的testing结果如下。 行计数操作 Text Format Cumulative CPU – 123.33 sec Parquet Format Cumulative CPU – 204.92 sec ORC Format Cumulative CPU – 119.99 sec […]