String 了解垃圾邮件发送者的姓名

String 了解垃圾邮件发送者的姓名,string,algorithm,machine-learning,similarity,feature-engineering,String,Algorithm,Machine Learning,Similarity,Feature Engineering,目前,互联网上充斥着一些垃圾邮件,特别是在体育赛事发生时 由于我强烈怀疑垃圾邮件发送者的用户名不是计算机生成的,所以我认为以某种方式通过编程学习垃圾邮件发送者的名称可能会很有趣 用户名应介于2到15个字符之间,以字母开头,并且仅包含字母、数字、\uuu或- 名单样本如下: riazsports0171 maya34444 thelmaeatons tigran777 newlive100 darbeshbaba litondina10 nithuhasan newlive100 bankuali

目前,互联网上充斥着一些垃圾邮件,特别是在体育赛事发生时

由于我强烈怀疑垃圾邮件发送者的用户名不是计算机生成的,所以我认为以某种方式通过编程学习垃圾邮件发送者的名称可能会很有趣

用户名应介于2到15个字符之间,以字母开头,并且仅包含字母、数字、
\uuu
-

名单样本如下:

riazsports0171
maya34444
thelmaeatons
tigran777
newlive100
darbeshbaba
litondina10
nithuhasan
newlive100
bankuali
lldztwydni554
monomala505
nasiruddin1500
lldztwydni554
ariful3032
nazmulhasan
我只有相当基本的算法知识(来自大学)。我的问题是,我可以使用哪些机器学习算法和/或字符串度量来预测任意用户名是否可能是垃圾邮件发送者。
我考虑使用余弦字符串similaritz,因为它相当简单。

有趣。但我不认为字符串相似性算法是最好的解决方案

我会尝试从名称中提取特征,并使用。与其他分类算法相比,通常提供非常好的结果,但也有其他算法(例如:,)各有优缺点

棘手的部分是提取特征。你应该有创造力。一些选项包括:数字的数量、连续字母的数量、连续辅音的数量、大小写的用法、大小写的正确用法、是否匹配某个正则表达式、。。。(您还可以使用字符串以外的其他功能,例如此用户发送给您的MSG数量等。)

接下来,您需要创建一个训练集。此培训集将同时包含垃圾邮件发送者和非垃圾邮件发送者用户名,这些用户名将手动标记为垃圾邮件发送者或非垃圾邮件发送者

将训练集输入到您选择的算法中,它将创建一个分类器,您可以使用该分类器预测新用户是否是垃圾邮件发送者


您可以通过在数据上使用来评估每个算法的有效性。

您需要一个名称数据集,其中每个名称都标记为是否属于垃圾邮件发送者。根据您的逻辑,“user3001”可能是垃圾邮件发送者您还有什么其他信息?!内容还是只有这些名字?!我同意字符串相似性是最简单也是最好的选择!删除内容会非常乏味,我宁愿只处理名字。我得到了更多的这些垃圾邮件发送者用户名,我只是想提供一个例子,它看起来如何。顺便说一句,我不是垃圾邮件发送者:)这应该给我一些好的开始点,非常感谢!