Python 我是否可以将字符串输入到";特色;对于scikit的DecisionTreeClassifiers学习?
我遵循谷歌开发人员的机器学习方法。我正在尝试使用这个ML算法来帮助我解决工作中遇到的问题。在执行ETL时,我们通常会得到各种不同的日期格式,并且希望能够将某些行识别为日期 目前有效的解决方案是Regex,我想使用ML来训练计算机识别日期 我所指的Google Dev代码是这样的(对象识别): 我想加载一整列不同的日期类型(12/12/12、Dec-12-12等)和不同的字符串(12、user/Documents/Python等) 下一列将是string类型(在代码中转换为0和1作为变量“labels”):1=如果字符串是日期,0=如果字符串只是字符串Python 我是否可以将字符串输入到";特色;对于scikit的DecisionTreeClassifiers学习?,python,scikit-learn,Python,Scikit Learn,我遵循谷歌开发人员的机器学习方法。我正在尝试使用这个ML算法来帮助我解决工作中遇到的问题。在执行ETL时,我们通常会得到各种不同的日期格式,并且希望能够将某些行识别为日期 目前有效的解决方案是Regex,我想使用ML来训练计算机识别日期 我所指的Google Dev代码是这样的(对象识别): 我想加载一整列不同的日期类型(12/12/12、Dec-12-12等)和不同的字符串(12、user/Documents/Python等) 下一列将是string类型(在代码中转换为0和1作为变量“labe
希望我的思路是正确的 不,它不接受。您必须通过将特征转换为数字格式来进行特征工程 比如说, 1) 对于分类列/特征中的字符串-进行一次热编码
2) 对于日期-将日期转换为从当前日期算起的天数从当前日期转换日期的确切含义是什么?我理解一个热门的编码,在将它们分类为字符串或日期时,我肯定会这样做,但我不明白从当前日期将它们转换为天是什么意思。@rmahesh他说你需要从日期中提取特征,如日期、月、周中日、年,等等,然后您可以在算法中使用它们。搜索有关如何执行此操作的更多信息。首先。@Vivek Kumar感谢您提供的链接,我们将从您提供的链接开始。
import sklearn
from sklearn import tree
#Featuers: 0 = "bumpy" 1 = "smooth"
#Labels: 0 = apple 1 = orange
features = [[140, 1], [130, 1], [150, 0], [170, 0]]
labels = [0, 0, 1, 1]
# We will be using a Decision Tree in this instance
clf = tree.DecisionTreeClassifier()
#fit = This is the training algorithm, this helps identify patterns as
to what attributes are associated with apples etc
clf = clf.fit(features, labels)
print(clf.predict([[160, 0]])) #This outputs 1, so it believes it is an orange.