Machine learning 仅基于博客道具和内容预测3个类似博客的最佳算法_Machine Learning_Blogs_Prediction_Data Science_Similarity

Machine learning 仅基于博客道具和内容预测3个类似博客的最佳算法

machine-learning

Machine learning 仅基于博客道具和内容预测3个类似博客的最佳算法,machine-learning,blogs,prediction,data-science,similarity,Machine Learning,Blogs,Prediction,Data Science,Similarity,{ blogid:11，博客作者：2，博客内容：这是博客的完整内容：在base64上编码的html，如PHNlY3Rpb24+PGRPDIBJBGFZCZ0ICM93IJ4KICAGICAGICA8ZGL2IGNSYNZPSJJB2WTC20TMTIIIGRHDGetDHLWZT0IY29UDGFPBMVYLWNWNRLBN，博客时间戳：2018-03-17 00:00:00，博客标题：亚马逊印度时装周：秋季-，博客字幕：，博客特色链接：图片链接，博客介绍段：文章的介绍段，博客状

{ blogid:11，博客作者：2，博客内容：这是博客的完整内容：在base64上编码的html，如PHNlY3Rpb24+PGRPDIBJBGFZCZ0ICM93IJ4KICAGICAGICA8ZGL2IGNSYNZPSJJB2WTC20TMTIIIGRHDGetDHLWZT0IY29UDGFPBMVYLWNWNRLBN，博客时间戳：2018-03-17 00:00:00，博客标题：亚马逊印度时装周：秋季-，博客字幕：，博客特色链接：图片链接，博客介绍段：文章的介绍段，博客状态：1，博客最新更新：\2018年3月19日上午7:42:23\，博客类型：博客，博客标签：1,4,6，博客：亚马逊印度时装周秋季，博客类别：1，博客阅读时间：5， ViewScont:0 }

以上是根据我的API的一个示例博客。我有很多这样的博客

我试图根据博客的主题预测3个类似的博客：标签、类别、作者、标题/副标题中的关键词和内容。我没有用户数据，也就是说，没有登录的用户数据，如评级或审查。我知道如果没有用户的数据，这将是不准确的，但我只是刚刚开始与数据科学或ML。任何建议/链接表示感谢。我更喜欢使用java，但python、php或任何其他语言也适合我。我需要一个易于实现的模型，因为我是一个初学者。提前谢谢。

我的直觉是，这个问题可能不在正确的地址

但是

我会这样做：

创建一个站点数据集，该数据集将是一个可用于预测的库存。对于每个站点，您需要列出一个或多个功能：标签数量、帖子数量、平均帖子间隔时间（以天为单位），等等。听起来这是为了训练，你不担心准确性太多了，数字特征就足够了。从一个k-NN算法返回。不要担心分类器。不是对博客进行分类，而是列出3个最近的邻居k=3。这是一个很好的算法实现。为了你的目的简化它，玩得开心。您的算法应该比k-NN短一两步，k-NN被认为是比较简单的ML之一，是一个很好的起点

祝你好运

编辑：您希望使用文本、标记、数字以及可能的时间序列数据构建推荐引擎。这是一项广泛的要求。就像你一样，当面对这个请求时，我需要深入研究数据和最佳方法。有些方法需要不同的数据集。例如，协同过滤与基于内容的过滤

在用户端，几乎没有什么东西可以像评级一样使用：您不需要登录功能获取信息：Cookie ID或基于IP的DMA、地理位置和查看持续时间应可用于Web服务器。在博客方面：您需要处理文本以识别相关术语。我在上面给出了其他博客功能的例子。我知道这是一个挥手的过程，但是这里没有实际的代码问题。重申我的直觉是，这个问题可能不在正确的地址。我真的很想帮忙，但这是我能做的最好的了

编辑2：如果我正确理解了你的新评论，每个博客都有以下内容：

一个相似系数。一组TF-IDF生成的单词分数。基于数字数据的欧几里德距离。我将从这些数据中创建一个新的统计数据，并允许该过程调整每个统计数据的重要性。挑战在于量化TF-IDF输出的文字分数。您可以将超过某个分数的标记视为标记，并运行另一个相似性分析，或计算重叠

您已经开始走这条路了，这个答案假设您要继续。IMO的最佳途径是查看哪些专门的推荐引擎可以帮助您，而无需构建带有欧几里德数字、带有Jaccard标签、带有TF-IDF文本的统计数据。

感谢您的回复。这是我自己网站的博客。我现在还没有登录功能。所以，我没有用户数据。我担心基于每个博客的各种道具的准确性，如标题、类别、标签、作者、正文等。我会看看你建议的链接。甚至我也在考虑使用KNN算法。如果您能根据我的上述要求提供帮助/建议，那将非常棒。感谢对答案的补充。我在上面添加了一个示例博客数据。希望这有助于了解我目前的情况。非常感谢。到目前为止，我已经对分类数据类型使用了jaccard相似性，对文本数据类型使用了TF-IDF，对数字使用了欧几里德。如果我能在那些地方做得更好，请告诉我。再挥手。希望更加具体和相关。