Machine learning 仅基于博客道具和内容预测3个类似博客的最佳算法

Machine learning 仅基于博客道具和内容预测3个类似博客的最佳算法,machine-learning,blogs,prediction,data-science,similarity,Machine Learning,Blogs,Prediction,Data Science,Similarity,{ blogid:11, 博客作者:2, 博客内容:这是博客的完整内容:在base64上编码的html,如PHNlY3Rpb24+PGRPDIBJBGFZCZ0ICM93IJ4KICAGICAGICA8ZGL2IGNSYNZPSJJB2WTC20TMTIIIGRHDGetDHLWZT0IY29UDGFPBMVYLWNWNRLBN, 博客时间戳:2018-03-17 00:00:00, 博客标题:亚马逊印度时装周:秋季-, 博客字幕:, 博客特色链接:图片链接, 博客介绍段:文章的介绍段, 博客状

{ blogid:11, 博客作者:2, 博客内容:这是博客的完整内容:在base64上编码的html,如PHNlY3Rpb24+PGRPDIBJBGFZCZ0ICM93IJ4KICAGICAGICA8ZGL2IGNSYNZPSJJB2WTC20TMTIIIGRHDGetDHLWZT0IY29UDGFPBMVYLWNWNRLBN, 博客时间戳:2018-03-17 00:00:00, 博客标题:亚马逊印度时装周:秋季-, 博客字幕:, 博客特色链接:图片链接, 博客介绍段:文章的介绍段, 博客状态:1, 博客最新更新:\2018年3月19日上午7:42:23\, 博客类型:博客, 博客标签:1,4,6, 博客:亚马逊印度时装周秋季, 博客类别:1, 博客阅读时间:5, ViewScont:0 }

以上是根据我的API的一个示例博客。我有很多这样的博客


我试图根据博客的主题预测3个类似的博客:标签、类别、作者、标题/副标题中的关键词和内容。我没有用户数据,也就是说,没有登录的用户数据,如评级或审查。我知道如果没有用户的数据,这将是不准确的,但我只是刚刚开始与数据科学或ML。任何建议/链接表示感谢。我更喜欢使用java,但python、php或任何其他语言也适合我。我需要一个易于实现的模型,因为我是一个初学者。提前谢谢。

我的直觉是,这个问题可能不在正确的地址

但是

我会这样做:

创建一个站点数据集,该数据集将是一个可用于预测的库存。对于每个站点,您需要列出一个或多个功能:标签数量、帖子数量、平均帖子间隔时间(以天为单位),等等。 听起来这是为了训练,你不担心准确性 太多了,数字特征就足够了。 从一个k-NN算法返回。不要担心分类器。不是对博客进行分类,而是列出3个最近的邻居k=3。这是一个很好的算法实现。为了你的目的简化它,玩得开心。 您的算法应该比k-NN短一两步,k-NN被认为是比较简单的ML之一,是一个很好的起点

祝你好运

编辑: 您希望使用文本、标记、数字以及可能的时间序列数据构建推荐引擎。这是一项广泛的要求。就像你一样,当面对这个请求时,我需要深入研究数据和最佳方法。有些方法需要不同的数据集。例如,协同过滤与基于内容的过滤

在用户端,几乎没有什么东西可以像评级一样使用:您不需要登录功能获取信息:Cookie ID或基于IP的DMA、地理位置和查看持续时间应可用于Web服务器。 在博客方面:您需要处理文本以识别相关术语。我在上面给出了其他博客功能的例子。 我知道这是一个挥手的过程,但是这里没有实际的代码问题。重申我的直觉是,这个问题可能不在正确的地址。 我真的很想帮忙,但这是我能做的最好的了

编辑2: 如果我正确理解了你的新评论,每个博客都有以下内容:

一个相似系数。 一组TF-IDF生成的单词 分数。 基于数字数据的欧几里德距离。 我将从这些数据中创建一个新的统计数据,并允许该过程调整每个统计数据的重要性。 挑战在于量化TF-IDF输出的文字分数。您可以将超过某个分数的标记视为标记,并运行另一个相似性分析,或计算重叠


您已经开始走这条路了,这个答案假设您要继续。IMO的最佳途径是查看哪些专门的推荐引擎可以帮助您,而无需构建带有欧几里德数字、带有Jaccard标签、带有TF-IDF文本的统计数据。

感谢您的回复。这是我自己网站的博客。我现在还没有登录功能。所以,我没有用户数据。我担心基于每个博客的各种道具的准确性,如标题、类别、标签、作者、正文等。我会看看你建议的链接。甚至我也在考虑使用KNN算法。如果您能根据我的上述要求提供帮助/建议,那将非常棒。感谢对答案的补充。我在上面添加了一个示例博客数据。希望这有助于了解我目前的情况。非常感谢。到目前为止,我已经对分类数据类型使用了jaccard相似性,对文本数据类型使用了TF-IDF,对数字使用了欧几里德。如果我能在那些地方做得更好,请告诉我。再挥手。希望更加具体和相关。