Tag: apache spark ml

如何处理spark-ml的分类function?

如何处理分类数据 spark-ml 而不 spark-mllib ? 认为文档不是很清楚,看起来像RandomForestClassifier , LogisticRegression这样的分类器有一个featuresCol参数,它指定DataFrame列的名称,以及一个labelCol参数,它指定了标签类的列名在DataFrame 。 很显然,我想在预测中使用多个特征,所以我尝试使用VectorAssembler将所有特征放在featuresCol下的单个vector中。 然而, VectorAssembler只接受数字types,布尔types和向量types(根据Spark网站),所以我不能把string放入我的特征向量中。 我应该如何继续?

MatchError在访问Spark 2.0中的向量列时

我正在尝试在JSON文件上创build一个LDA模型。 用JSON文件创build一个spark上下文: import org.apache.spark.sql.SparkSession val sparkSession = SparkSession.builder .master("local") .appName("my-spark-app") .config("spark.some.config.option", "config-value") .getOrCreate() val df = spark.read.json("dbfs:/mnt/JSON6/JSON/sampleDoc.txt") 显示df应该显示DataFrame display(df) 标记文本 import org.apache.spark.ml.feature.RegexTokenizer // Set params for RegexTokenizer val tokenizer = new RegexTokenizer() .setPattern("[\\W_]+") .setMinTokenLength(4) // Filter away tokens with length < 4 .setInputCol("text") .setOutputCol("tokens") // Tokenize document val tokenized_df = tokenizer.transform(df) 这应该显示tokenized_df display(tokenized_df) 获取stopwords %sh […]