Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/email/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何对整型列进行特征工程?_Scala_Apache Spark_Apache Spark Sql - Fatal编程技术网

Scala 如何对整型列进行特征工程?

Scala 如何对整型列进行特征工程?,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我正在使用ApacheSpark进行代码分配。这是使用Spark进行的客户数据分析 我需要帮助来确定解决其中一个问题的正确方法 val bankText = sc.textFile("/tmp/resources/bank-full.csv") case class Bank(age:Integer, job:String, marital : String, education : String, isdefault: String, balance : Integer, housing:

我正在使用ApacheSpark进行代码分配。这是使用Spark进行的客户数据分析

我需要帮助来确定解决其中一个问题的正确方法

val bankText = sc.textFile("/tmp/resources/bank-full.csv")

case class Bank(age:Integer, job:String, marital : String, education : String, isdefault: String, balance : Integer, housing: String, loan:String, contact:String, month:String, day_of_week:String, duration: Integer, campaign:Integer, pdays:Integer, previous:Integer, poutcome:String, isSuccess:String)

val bankrdd = bankText.map(s=>s.split(";")).filter(s=>s(0)!="\"age\"").map(
s=>Bank(s(0).toInt,
 s(1).replaceAll("\"", ""),
  s(2).replaceAll("\"", ""),
   s(3).replaceAll("\"", ""),
   s(4).replaceAll("\"", ""),
  s(5).replaceAll("\"", "").toInt,
   s(6).replaceAll("\"", ""),
   s(7).replaceAll("\"", ""),
  s(8).replaceAll("\"", ""),
   s(9).replaceAll("\"", ""),
   s(10).replaceAll("\"", ""),
  s(11).replaceAll("\"", "").toInt,
   s(12).replaceAll("\"", "").toInt,
   s(13).replaceAll("\"", "").toInt,
  s(14).replaceAll("\"", "").toInt,
   s(15).replaceAll("\"", ""),
   s(16).replaceAll("\"", "")
)
)
val bankDF=bankrdd.toDF()
bankDF.printSchema()
Dataframe如下所示

如何对
age
栏目进行功能设计,并找到正确的
age
活动的影响

我正在使用ApacheSpark进行代码分配

那你为什么不问问导师这个问题呢?这可能有助于找到这个问题和未来问题的答案。强烈推荐

如何对
age
栏目进行功能设计,并找到正确的
age
活动的影响

首先,我将使用来自Spark SQL和Spark MLlib的最新和最好的API。你的生活会轻松得多

话虽如此(我对机器学习的实际应用了解有限),我认为您应该使用transformer来组装feature列

将多个列合并为向量列的特征变换器

从官方文件中,关于:

VectorAssembler
是一个转换器,它将给定的列列表组合成单个向量列。它有助于将原始特征和由不同特征变换器生成的特征组合成单个特征向量,以便训练逻辑回归和决策树等ML模型


问题是关于特征工程本身的过程吗?