Nlp LDA vs Word2Vec。预测邮件收件人的正确解决方案是什么?

Nlp LDA vs Word2Vec。预测邮件收件人的正确解决方案是什么?,nlp,data-science,word2vec,lda,Nlp,Data Science,Word2vec,Lda,我正在研究各种NLP算法和工具来解决以下问题;NLP新手在这里,所以请原谅我的问题,如果它太基本 比如说,我有一个短信应用程序,用户可以向一个或多个用户发送短信。当用户键入消息时,我希望应用程序向用户建议消息的潜在收件人是谁 如果用户“A”向用户“B”发送大量关于“猫”的短信,向用户“C”发送一些关于“政治”的短信,并向用户“D”发送大量关于“猫”的短信,那么下次用户键入关于“猫”的短信时,应用程序应该建议“B”和“C”而不是“D” 所以我正在做一些关于主题建模和单词嵌入的研究,发现LDA和Wo

我正在研究各种NLP算法和工具来解决以下问题;NLP新手在这里,所以请原谅我的问题,如果它太基本

比如说,我有一个短信应用程序,用户可以向一个或多个用户发送短信。当用户键入消息时,我希望应用程序向用户建议消息的潜在收件人是谁

如果用户“A”向用户“B”发送大量关于“猫”的短信,向用户“C”发送一些关于“政治”的短信,并向用户“D”发送大量关于“猫”的短信,那么下次用户键入关于“猫”的短信时,应用程序应该建议“B”和“C”而不是“D”

所以我正在做一些关于主题建模和单词嵌入的研究,发现LDA和Word2Vec是我可以使用的两种可能的算法

想挑选你认为更适合这种情况的大脑

我的一个想法是,使用LDA从以前的消息中提取主题,并根据过去讨论主题的次数(即发送的消息)对消息的收件人进行排序。如果我有这个主题的映射和你谈论它的用户的排序列表(根据频率排序),那么当用户键入消息时,我可以再次对消息运行主题提取,预测消息的内容,然后查找映射以查看谁可能是接收者并向用户显示

这是一个好方法吗?或者,Word2Vec(或doc2vec或lda2vec)更适合这个问题,我们可以使用单词的向量表示法(又称单词嵌入)来预测类似的消息?我们真的需要从消息中提取主题来预测收件人吗?还是不需要?您认为其他算法或技术是否最有效

你有什么想法和建议


谢谢你的帮助。

因为你只是在看以前文章中的主题提取,我认为LDA是一个更好的选择。LDA将描述事件的统计关系。这些词的语义大部分会被忽略(若你们正在寻找,那个么你们可能会想重新思考)。但我也建议看看混合方法。我自己没试过,但看起来很有趣


另外,如果你碰巧尝试过,我很想知道你的发现

因为您纯粹是在查看以前文章中的主题提取,所以我认为LDA是一个更好的选择。LDA将描述事件的统计关系。这些词的语义大部分会被忽略(若你们正在寻找,那个么你们可能会想重新思考)。但我也建议看看混合方法。我自己没试过,但看起来很有趣


另外,如果你碰巧尝试过,我很想知道你的发现

我认为您正在寻找推荐系统(Netflix电影推荐、亚马逊购买推荐等)或网络分析(Facebook好友推荐),它们利用主题建模作为属性。我将尝试将其分解:

网络分析:

FB friends是网络的节点,其边缘是友谊关系。计算介数中心度,查找节点之间的最短路径,将最短边存储为列表,贴近度中心度是节点之间长度的总和

推荐系统:

推荐流行的内容,观察相似的用户,并建议用户可能感兴趣的内容,通过测量指向同一方向的向量之间的角度来计算余弦相似性

LDA:

文本数据的主题建模器-返回感兴趣的主题可以用作上述算法中的嵌套算法

Word2Vec:

这是构建LDA的必要步骤,看起来是这样的:单词->说324,然后计算频率,说它在一个句子中出现两次:

这是一个很好的句子

[(1,1)、(2,2)、(3,1)、(4,1)、(2,2)]

这是一个神经网络,你可能不得不将其用作预处理步骤


我希望这能有所帮助:)

我认为您正在寻找推荐系统(Netflix电影推荐、亚马逊购买推荐等)或网络分析(Facebook好友推荐),它们利用主题建模作为属性。我将尝试将其分解:

网络分析:

FB friends是网络的节点,其边缘是友谊关系。计算介数中心度,查找节点之间的最短路径,将最短边存储为列表,贴近度中心度是节点之间长度的总和

推荐系统:

推荐流行的内容,观察相似的用户,并建议用户可能感兴趣的内容,通过测量指向同一方向的向量之间的角度来计算余弦相似性

LDA:

文本数据的主题建模器-返回感兴趣的主题可以用作上述算法中的嵌套算法

Word2Vec:

这是构建LDA的必要步骤,看起来是这样的:单词->说324,然后计算频率,说它在一个句子中出现两次:

这是一个很好的句子

[(1,1)、(2,2)、(3,1)、(4,1)、(2,2)]

这是一个神经网络,你可能不得不将其用作预处理步骤


我希望这能有所帮助:)

很可能,这个问题更适合你。这里有一个警示性的故事:很可能,这个问题更适合你。这里有一个警示故事: