Scala 如何对整型列进行特征工程?
我正在使用ApacheSpark进行代码分配。这是使用Spark进行的客户数据分析 我需要帮助来确定解决其中一个问题的正确方法Scala 如何对整型列进行特征工程?,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我正在使用ApacheSpark进行代码分配。这是使用Spark进行的客户数据分析 我需要帮助来确定解决其中一个问题的正确方法 val bankText = sc.textFile("/tmp/resources/bank-full.csv") case class Bank(age:Integer, job:String, marital : String, education : String, isdefault: String, balance : Integer, housing:
val bankText = sc.textFile("/tmp/resources/bank-full.csv")
case class Bank(age:Integer, job:String, marital : String, education : String, isdefault: String, balance : Integer, housing: String, loan:String, contact:String, month:String, day_of_week:String, duration: Integer, campaign:Integer, pdays:Integer, previous:Integer, poutcome:String, isSuccess:String)
val bankrdd = bankText.map(s=>s.split(";")).filter(s=>s(0)!="\"age\"").map(
s=>Bank(s(0).toInt,
s(1).replaceAll("\"", ""),
s(2).replaceAll("\"", ""),
s(3).replaceAll("\"", ""),
s(4).replaceAll("\"", ""),
s(5).replaceAll("\"", "").toInt,
s(6).replaceAll("\"", ""),
s(7).replaceAll("\"", ""),
s(8).replaceAll("\"", ""),
s(9).replaceAll("\"", ""),
s(10).replaceAll("\"", ""),
s(11).replaceAll("\"", "").toInt,
s(12).replaceAll("\"", "").toInt,
s(13).replaceAll("\"", "").toInt,
s(14).replaceAll("\"", "").toInt,
s(15).replaceAll("\"", ""),
s(16).replaceAll("\"", "")
)
)
val bankDF=bankrdd.toDF()
bankDF.printSchema()
Dataframe如下所示
如何对age
栏目进行功能设计,并找到正确的age
对活动的影响
我正在使用ApacheSpark进行代码分配
那你为什么不问问导师这个问题呢?这可能有助于找到这个问题和未来问题的答案。强烈推荐
如何对age
栏目进行功能设计,并找到正确的age
对活动的影响
首先,我将使用来自Spark SQL和Spark MLlib的最新和最好的API。你的生活会轻松得多
话虽如此(我对机器学习的实际应用了解有限),我认为您应该使用transformer来组装feature列
将多个列合并为向量列的特征变换器
从官方文件中,关于:
VectorAssembler
是一个转换器,它将给定的列列表组合成单个向量列。它有助于将原始特征和由不同特征变换器生成的特征组合成单个特征向量,以便训练逻辑回归和决策树等ML模型
问题是关于特征工程本身的过程吗?