Machine learning 如何在数据中标记客户_Machine Learning_Encoding

Machine learning 如何在数据中标记客户

machine-learning encoding

Machine learning 如何在数据中标记客户,machine-learning,encoding,Machine Learning,Encoding,我正在尝试使用神经网络进行欺诈检测，问题是如何标记用户列（约100万用户），以便每个用户都有独特的行为，这取决于他们的交易/浏览参数。我的大多数列都是标称列在阅读之后，我确信没有一个热编码，我应该选择目标的组合，并去掉一个编码。是这样吗？你们这些人能指引我正确的方向吗相同的编码可用于培训数据中没有的新用户/客户？我会根据数据对网络进行不同的培训如果每个用户都有欺诈和正常的例子，那么我会独立地对网络进行每个用户的数据培训，并存储他们的权重，一旦他们执行某项操作，就会检索这些权重，以便对其进

我正在尝试使用神经网络进行欺诈检测，问题是如何标记用户列（约100万用户），以便每个用户都有独特的行为，这取决于他们的交易/浏览参数。我的大多数列都是标称列

在阅读之后，我确信没有一个热编码，我应该选择目标的组合，并去掉一个编码。是这样吗？你们这些人能指引我正确的方向吗

相同的编码可用于培训数据中没有的新用户/客户？

我会根据数据对网络进行不同的培训

如果每个用户都有欺诈和正常的例子，那么我会独立地对网络进行每个用户的数据培训，并存储他们的权重，一旦他们执行某项操作，就会检索这些权重，以便对其进行审查。对于新用户，我会在整个数据集上为所有100万用户训练网络，每当新用户出现时，我会为他们使用那些用户不可知的权重。对于定制，我要么在培训集中为他们的数据创建一个新行，最终再培训网络以供使用，要么在线学习，以便模型能够随着时间的推移学习
如果用户没有个人欺诈/真实反例，我会使用一对一策略，其中用户数据是真实行为，其他人的数据是欺诈。然后我将存储权重，并在推断时检索它们

嘿，我找到了最好的方法来标记数据（字符串/分类），以保留每个客户的行为

我可以使用catboost或python库Crypto.Util.number在规范化数据后将中的任何字符串转换为唯一的数字

谢谢。

嗨，你有没有博客/例子来解释你所解释的内容，以便我能更好地理解。不幸的是，我没有。但是你可以分享你的数据，这样我就可以看一看，并向你展示一个工作示例嘿，我如何添加我的样本数据集？所有上传站点都被阻止在我的组织中。可能是Puch到GitHub repo或使用云服务提供商