Machine learning Logistic回归预测购买

Machine learning Logistic回归预测购买,machine-learning,regression,apache-spark-mllib,logistic-regression,predict,Machine Learning,Regression,Apache Spark Mllib,Logistic Regression,Predict,我有三年的国际进口商从不同国家购买原材料的数据。数据包括: 产品代码、买方国家、买方名称、目的港、卖方国家、卖方名称、原产港、单位、价值(美元)、单价 我想预测一个特定的买家是否会在下周进行购买交易。对此,逻辑回归是一种自然选择。然而,从数据上看,它只会产生积极的结果,我是否应该平衡数据的积极和消极结果 因此,如果我看的是每周预测,我是否应该将该买家一周的所有交易汇总,并在没有交易的那一周添加一个负面结果行?现在这是非常抽象的,因此只能给出抽象的答案 几乎任何二进制模型都要求两个类都出现在训练数

我有三年的国际进口商从不同国家购买原材料的数据。数据包括:

产品代码、买方国家、买方名称、目的港、卖方国家、卖方名称、原产港、单位、价值(美元)、单价

我想预测一个特定的买家是否会在下周进行购买交易。对此,逻辑回归是一种自然选择。然而,从数据上看,它只会产生积极的结果,我是否应该平衡数据的积极和消极结果


因此,如果我看的是每周预测,我是否应该将该买家一周的所有交易汇总,并在没有交易的那一周添加一个负面结果行?

现在这是非常抽象的,因此只能给出抽象的答案

几乎任何二进制模型都要求两个类都出现在训练数据集中,因此您需要收集更多的数据来包含这两个类(或者进一步拆分它们以生成包含这两个类的更精细的间隔,如果您所指的是这样的话)


交叉验证与模型构建同时进行,以评估模型的性能。

非常感谢downvote的评论,因为我对该领域非常陌生,并且愿意纠正或编辑问题中的任何不足之处。可能是因为这属于交叉验证,因为它与编程。@user2974951我的问题实际上是关于方法的,我添加这些聚合的非购买行是否正确。交叉验证是以后才会出现的,不是吗?