Tag: cloudera

Spark:如何从Spark壳运行Spark文件

我正在使用CDH 5.2。 我能够使用spark-shell来运行命令。 我如何运行包含spark命令的文件(file.spark)。 其次,有没有办法在没有sbt的情况下运行/编译CDH 5.2中的scala程序? 提前致谢,

Hive外部表跳过第一行

我正在使用Cloudera的Hive版本,并尝试通过包含第一列中列名的csv文件创build外部表。 这里是我用来做到这一点的代码。 CREATE EXTERNAL TABLE Test ( RecordId int, FirstName string, LastName string ) ROW FORMAT serde 'com.bizo.hive.serde.csv.CSVSerde' WITH SerDeProperties ( "separatorChar" = "," ) STORED AS TEXTFILE LOCATION '/user/File.csv' 样本数据 RecordId,FirstName,LastName 1,"John","Doe" 2,"Jane","Doe" 任何人都可以帮助我如何跳过第一行,或者我需要添加一个中间步骤?

使用Eclipse / Maven构buildHadoop – 缺less神器jdk.tools:jdk.tools:jar:1.6

我试图导入cloudera的org.apache.hadoop:hadoop客户端:2.0.0-cdh4.0.0 从cdh4 maven回购在eclipse 3.81,m2e插件与oracle的jdk 1.7.0_05在win7上的maven项目 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.0.0-cdh4.0.0</version> </dependency> 但是,我得到以下错误: The container 'Maven Dependencies' references non existing library 'C:\Users\MyUserId\.m2\repository\jdk\tools\jdk.tools\1.6\jdk.tools-1.6.jar' 更具体的说,maven说下面的工件丢失了 Missing artifact jdk.tools:jdk.tools:jar:1.6 如何解决这个问题?