我打算为我的hadoop相关项目使用一个hadoop文件格式。 我知道实木复合地板是有效的基于列的查询和avro全面扫描或当我们需要所有的列数据! 在我继续select一种文件格式之前,我想先了解一个文件格式的缺点和弊端。 任何人都可以用简单的语言来解释一下吗?
Apache Parquet的特点是: 自描述 列格式 与语言无关 与Avro,序列文件,RC文件等相比,我想要一个格式的概述。 我已经阅读: Impala如何与Hadoop文件格式一起工作 ,它提供了关于格式的一些见解,但是我想知道如何以这些格式来访问数据和存储数据。 木条地板如何比其他地方有优势?