Nlp 从社交档案中提取用户兴趣

Nlp 从社交档案中提取用户兴趣,nlp,machine-learning,extraction,information-extraction,Nlp,Machine Learning,Extraction,Information Extraction,这是我第一次涉足NLP,请原谅我的无知。我正在寻找一种从用户的社交档案中提取兴趣/爱好/爱好的方法。以下是一个示例,其中所有兴趣/爱好/爱好均以粗体显示: 我认为自己是一个非常多样化的角色……我是个专业人士。 摔跤手,但我愿意为沃尔•E接受子弹。我在健身房像一个人的种族灭绝机器一样训练,但我哭了 “世界末日”我要去交流/直流,我是认真的 考虑做一个塞尔达传奇的纹身。我很友好。我 喜欢聚会有一天晚上,和兄弟会的人一起出去玩 我的火人朋友们下一步,玩光环和世界 魔兽争霸下一个游戏,与年龄不小于 我最

这是我第一次涉足NLP,请原谅我的无知。我正在寻找一种从用户的社交档案中提取兴趣/爱好/爱好的方法。以下是一个示例,其中所有兴趣/爱好/爱好均以粗体显示:

我认为自己是一个非常多样化的角色……我是个专业人士。 摔跤手,但我愿意为沃尔•E接受子弹。我在健身房像一个人的种族灭绝机器一样训练,但我哭了 “世界末日”我要去交流/直流,我是认真的 考虑做一个塞尔达传奇的纹身。我很友好。我 喜欢聚会有一天晚上,和兄弟会的人一起出去玩 我的火人朋友们下一步,玩光环世界 魔兽争霸下一个游戏,与年龄不小于 我最小的朋友16岁,我最大的朋友66岁。我会的 在酒吧唱卡拉OK,我是我朋友的集体 精神科医生/肩膀。”

配置文件为纯文本。没有任何元标记或ID与之关联,它只是一段文本

我最初的想法是将每个名词与之匹配,看看它是否是一项活动/艺术家/电影/书籍等。问题是,尽管提到的大多数实体都是用户喜欢的东西,但她也会提到她不喜欢的东西,我无法区分这两个

我有两个问题:

  • 我应该查看NLP的哪个子字段?一些谷歌搜索的算法/技术/作者将不胜感激
  • 这个问题有多难

  • 谢谢

    首先,除非使用NLP来实现这一目标是您的特殊目标,否则请检查您的问题域,看看您是否可以完全避免它

    例如:

    • 这些配置文件是否有标签(由站点或供应商提供) 用户)

    • 站点的API提供了什么(假设您是这样做的) 正在访问此数据;如果正在对其进行刮取,则这并不重要 课程(适用)?Facebook就是一个很好的例子。如果您阅读用户的帖子, 你会看到“摔跤手”、“卡拉OK”等词,但如果你看 哪些字段是通过Graph API公开的,您将看到 活动几乎总是有一个关联的FB ID

    我不是这个领域的专家,但我可以向NLP推荐一些非专家或新手可以访问的资源。第一个是一个。这个简单的web服务使用REST和JSON IO。它是免费的,似乎有一个相当大的利率限制

    这个API似乎严重依赖于Perfect(NLTK),它是python中一个成熟的稳定库,包括针对您问题的模块,例如情绪分析、标记和块提取等


    哪个子域与解决OP中的问题最相关?我不知道,但我怀疑在NLTK中的某个地方有一个模块,可以满足您的需要。找到该模块希望只是浏览(按模块组织)的问题;阅读本节,其中包含对NLTK模块的优秀调查以及每个模块的演示。

    不幸的是,没有标签或api。从字面上看,这是一段段文字。感谢NLTK提示,我喜欢python。我去四处看看。