Machine learning 如何在数据中标记客户

Machine learning 如何在数据中标记客户,machine-learning,encoding,Machine Learning,Encoding,我正在尝试使用神经网络进行欺诈检测,问题是如何标记用户列(约100万用户),以便每个用户都有独特的行为,这取决于他们的交易/浏览参数。我的大多数列都是标称列 在阅读之后,我确信没有一个热编码,我应该选择目标的组合,并去掉一个编码。是这样吗?你们这些人能指引我正确的方向吗 相同的编码可用于培训数据中没有的新用户/客户?我会根据数据对网络进行不同的培训 如果每个用户都有欺诈和正常的例子,那么我会独立地对网络进行每个用户的数据培训,并存储他们的权重,一旦他们执行某项操作,就会检索这些权重,以便对其进

我正在尝试使用神经网络进行欺诈检测,问题是如何标记用户列(约100万用户),以便每个用户都有独特的行为,这取决于他们的交易/浏览参数。我的大多数列都是标称列

在阅读之后,我确信没有一个热编码,我应该选择目标的组合,并去掉一个编码。是这样吗?你们这些人能指引我正确的方向吗


相同的编码可用于培训数据中没有的新用户/客户?

我会根据数据对网络进行不同的培训

  • 如果每个用户都有欺诈和正常的例子,那么我会独立地对网络进行每个用户的数据培训,并存储他们的权重,一旦他们执行某项操作,就会检索这些权重,以便对其进行审查。对于新用户,我会在整个数据集上为所有100万用户训练网络,每当新用户出现时,我会为他们使用那些用户不可知的权重。对于定制,我要么在培训集中为他们的数据创建一个新行,最终再培训网络以供使用,要么在线学习,以便模型能够随着时间的推移学习
  • 如果用户没有个人欺诈/真实反例,我会使用一对一策略,其中用户数据是真实行为,其他人的数据是欺诈。然后我将存储权重,并在推断时检索它们

嘿,我找到了最好的方法来标记数据(字符串/分类),以保留每个客户的行为

我可以使用catboost或python库Crypto.Util.number在规范化数据后将中的任何字符串转换为唯一的数字


谢谢。

嗨,你有没有博客/例子来解释你所解释的内容,以便我能更好地理解。不幸的是,我没有。但是你可以分享你的数据,这样我就可以看一看,并向你展示一个工作示例嘿,我如何添加我的样本数据集?所有上传站点都被阻止在我的组织中。可能是Puch到GitHub repo或使用云服务提供商