Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/82.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 定义词类_R_Nlp - Fatal编程技术网

R 定义词类

R 定义词类,r,nlp,R,Nlp,我有一套2万个单词和简单的短语。我需要选择每个单词并定义它的一般概念或类别 所以如果我打曲棍球,它应该属于一个大的运动类别。如果是巴拉克·奥巴马,那就是政治。以下是我的单词列表中的一个示例: israel illness face experts throat tory moments numerous 所有奇怪的东西都可以归入一般范畴 那是我的问题。以下是我的想法,你可能会忽略,因为我不知道如何处理这个问题 可能我正在寻找某种可以定义一个词的一般概念的开放词典或API。我想找一本简单的字典,

我有一套2万个单词和简单的短语。我需要选择每个单词并定义它的一般概念或类别

所以如果我打曲棍球,它应该属于一个大的运动类别。如果是巴拉克·奥巴马,那就是政治。以下是我的单词列表中的一个示例:

israel
illness
face
experts
throat
tory
moments
numerous
所有奇怪的东西都可以归入一般范畴

那是我的问题。以下是我的想法,你可能会忽略,因为我不知道如何处理这个问题


可能我正在寻找某种可以定义一个词的一般概念的开放词典或API。我想找一本简单的字典,把每一个单词通读一遍,分析一下它的经济学类别。但不是所有的单词都有。

我可以给你指出。这是一个关于许多维基百科信息框数据的数据库,它有一个用于查询的sparql端点。我两年前使用过它,但是api似乎已经改变了,所以我现在不能给你一个例子。但是它有一个非常好的文档。

听起来你想做主题建模。quanteda、Snowball和tm软件包是很好的起点。使用mallet包进行主题建模的资源如下:


主题建模的一般思想是,您的文字来自于文档本身与特定主题相关的内容。主题建模检查哪些单词出现在同一文档中,并假设在许多文档中,这些单词可能与同一主题有关。希望这能有所帮助。

你试过斯坦福德的WordNet吗?当然是主题,而不是类别。非常感谢。看来你指的正是我要找的东西。我想,我需要一段时间才能得到结果,所以我只是将答案标记为正确。我还发现了这个有趣的项目,它正是我想要的:。但它无法大规模运行,因为免费版本有限。您也可以使用此在线工具,我不确定它是否能更好地为您扩展: