我打算为我的hadoop相关项目使用一个hadoop文件格式。 我知道实木复合地板是有效的基于列的查询和avro全面扫描或当我们需要所有的列数据! 在我继续select一种文件格式之前,我想先了解一个文件格式的缺点和弊端。 任何人都可以用简单的语言来解释一下吗?
Apache Parquet的特点是: 自描述 列格式 与语言无关 与Avro,序列文件,RC文件等相比,我想要一个格式的概述。 我已经阅读: Impala如何与Hadoop文件格式一起工作 ,它提供了关于格式的一些见解,但是我想知道如何以这些格式来访问数据和存储数据。 木条地板如何比其他地方有优势?
所有这些都提供了二进制序列化,RPC框架和IDL。 我感兴趣的是它们之间的主要区别和特性(性能,易用性,编程语言支持)。 如果您了解其他类似的技术,请在回答中提及。