Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/82.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Text 专有名称列表?_Text_Filtering_Classification_Corpus - Fatal编程技术网

Text 专有名称列表?

Text 专有名称列表?,text,filtering,classification,corpus,Text,Filtering,Classification,Corpus,我正在尝试从文本块中筛选名称。目前,我只是生成一个单词列表,并手动过滤,但我还有约8k个单词,所以我正在寻找更好的方法。我可以拿一本字典把它们过滤掉,但那会剔除像史密斯和克里夫这样的名字 我需要的是以下任一项: 常见名称列表(我需要>5k的最常见名称) 碰巧也是单词的名称列表 我想在他们中间,我可以做一个黑名单/白名单的组合,以获得我所需要的。美国人口普查名单: 无论如何,这会让你在这个问题上有一个角度 编辑更改URL,根据下面关于页面移动的评论。没有人再相信HTTP 302了?我在以下网站

我正在尝试从文本块中筛选名称。目前,我只是生成一个单词列表,并手动过滤,但我还有约8k个单词,所以我正在寻找更好的方法。我可以拿一本字典把它们过滤掉,但那会剔除像史密斯和克里夫这样的名字

我需要的是以下任一项:

  • 常见名称列表(我需要>5k的最常见名称)
  • 碰巧也是单词的名称列表
我想在他们中间,我可以做一个黑名单/白名单的组合,以获得我所需要的。

美国人口普查名单:

无论如何,这会让你在这个问题上有一个角度

编辑更改URL,根据下面关于页面移动的评论。没有人再相信HTTP 302了?

我在以下网站上找到的帖子:

CMU的NELL项目从网络上收集了大量专有名词,并按类型进行分类。您可以在以下位置联机浏览,并在以下位置下载数据:


比如说,网络抓取结果似乎比我所做的更有效,我所做的是从标签分隔的CSV文件中标记为“person”的短语中提取一个姓名列表。无论哪种方式,您都将使用regex。

什么语言的通用名称?或者在哪个国家,因为“阿里”在美国很受欢迎,尽管它是一个阿拉伯名字。@John,正如它所发生的那样,大部分是英语,但在那之后,几乎什么都有。至于“还字”位;英语。人口普查可能有点过时,而且它也只包含常用的名字,因此,例如,Barak无法在男性优先列表中找到,而Obama则无法在all.last文件中找到,尽管Barak Obama的名字在书面文本(如新闻来源、博客、,链接到census.gov的tweets等现在会导致404。这似乎是人口普查网站上家谱数据的新顶级主页:。在政府关闭期间,此资源处于脱机状态。有好的选择吗?谢谢。互联网档案说,这是2020年的档案位置:(还有2010年的人口普查)