Machine learning Logistic回归预测购买_Machine Learning_Regression_Apache Spark Mllib_Logistic Regression_Predict

Machine learning Logistic回归预测购买

machine-learning

Machine learning Logistic回归预测购买,machine-learning,regression,apache-spark-mllib,logistic-regression,predict,Machine Learning,Regression,Apache Spark Mllib,Logistic Regression,Predict,我有三年的国际进口商从不同国家购买原材料的数据。数据包括：产品代码、买方国家、买方名称、目的港、卖方国家、卖方名称、原产港、单位、价值（美元）、单价我想预测一个特定的买家是否会在下周进行购买交易。对此，逻辑回归是一种自然选择。然而，从数据上看，它只会产生积极的结果，我是否应该平衡数据的积极和消极结果因此，如果我看的是每周预测，我是否应该将该买家一周的所有交易汇总，并在没有交易的那一周添加一个负面结果行？现在这是非常抽象的，因此只能给出抽象的答案几乎任何二进制模型都要求两个类都出现在训练数

我有三年的国际进口商从不同国家购买原材料的数据。数据包括：

产品代码、买方国家、买方名称、目的港、卖方国家、卖方名称、原产港、单位、价值（美元）、单价

我想预测一个特定的买家是否会在下周进行购买交易。对此，逻辑回归是一种自然选择。然而，从数据上看，它只会产生积极的结果，我是否应该平衡数据的积极和消极结果

因此，如果我看的是每周预测，我是否应该将该买家一周的所有交易汇总，并在没有交易的那一周添加一个负面结果行？

现在这是非常抽象的，因此只能给出抽象的答案

几乎任何二进制模型都要求两个类都出现在训练数据集中，因此您需要收集更多的数据来包含这两个类（或者进一步拆分它们以生成包含这两个类的更精细的间隔，如果您所指的是这样的话）

交叉验证与模型构建同时进行，以评估模型的性能。

非常感谢downvote的评论，因为我对该领域非常陌生，并且愿意纠正或编辑问题中的任何不足之处。可能是因为这属于交叉验证，因为它与编程。@user2974951我的问题实际上是关于方法的，我添加这些聚合的非购买行是否正确。交叉验证是以后才会出现的，不是吗？