R 定义词类
我有一套2万个单词和简单的短语。我需要选择每个单词并定义它的一般概念或类别 所以如果我打曲棍球,它应该属于一个大的运动类别。如果是巴拉克·奥巴马,那就是政治。以下是我的单词列表中的一个示例:R 定义词类,r,nlp,R,Nlp,我有一套2万个单词和简单的短语。我需要选择每个单词并定义它的一般概念或类别 所以如果我打曲棍球,它应该属于一个大的运动类别。如果是巴拉克·奥巴马,那就是政治。以下是我的单词列表中的一个示例: israel illness face experts throat tory moments numerous 所有奇怪的东西都可以归入一般范畴 那是我的问题。以下是我的想法,你可能会忽略,因为我不知道如何处理这个问题 可能我正在寻找某种可以定义一个词的一般概念的开放词典或API。我想找一本简单的字典,
israel
illness
face
experts
throat
tory
moments
numerous
所有奇怪的东西都可以归入一般范畴
那是我的问题。以下是我的想法,你可能会忽略,因为我不知道如何处理这个问题
可能我正在寻找某种可以定义一个词的一般概念的开放词典或API。我想找一本简单的字典,把每一个单词通读一遍,分析一下它的经济学类别。但不是所有的单词都有。我可以给你指出。这是一个关于许多维基百科信息框数据的数据库,它有一个用于查询的sparql端点。我两年前使用过它,但是api似乎已经改变了,所以我现在不能给你一个例子。但是它有一个非常好的文档。听起来你想做主题建模。quanteda、Snowball和tm软件包是很好的起点。使用mallet包进行主题建模的资源如下:
主题建模的一般思想是,您的文字来自于文档本身与特定主题相关的内容。主题建模检查哪些单词出现在同一文档中,并假设在许多文档中,这些单词可能与同一主题有关。希望这能有所帮助。你试过斯坦福德的WordNet吗?当然是主题,而不是类别。非常感谢。看来你指的正是我要找的东西。我想,我需要一段时间才能得到结果,所以我只是将答案标记为正确。我还发现了这个有趣的项目,它正是我想要的:。但它无法大规模运行,因为免费版本有限。您也可以使用此在线工具,我不确定它是否能更好地为您扩展: