Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/365.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/csharp-4.0/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Penn Treebank 3.0句子中的奇怪标记_Python_Nltk - Fatal编程技术网

Python Penn Treebank 3.0句子中的奇怪标记

Python Penn Treebank 3.0句子中的奇怪标记,python,nltk,Python,Nltk,我从LDC获得了LDC99T42英语词典语料库。现在我正在尝试加载它并使用NLTK获取句子 我使用BracketParseCorpusReader加载.mrg文件,然后调用'sents()'函数获取句子。但是句子中有些奇怪的东西(看起来像标签,比如*T*-1和*U*) 例如:(摘自09/wsj_0925.mrg) 你能告诉我为什么会这样吗。。。?如何正确加载语料库 #更新 我发现所有这些标记都来自解析文件中的“-None-”节点。我应该删除所有这些节点吗?或者有没有办法忽略它们?@erip是的,

我从LDC获得了LDC99T42英语词典语料库。现在我正在尝试加载它并使用NLTK获取句子

我使用BracketParseCorpusReader加载.mrg文件,然后调用'sents()'函数获取句子。但是句子中有些奇怪的东西(看起来像标签,比如*T*-1和*U*)

例如:(摘自09/wsj_0925.mrg)

你能告诉我为什么会这样吗。。。?如何正确加载语料库

#更新 我发现所有这些标记都来自解析文件中的“-None-”节点。我应该删除所有这些节点吗?或者有没有办法忽略它们?

@erip是的,“-None-”节点。对不起,我无法回复或@you。。。
[u'Computer', u'Sciences', u'Corp.', u'said', u'0', u'it', u'received', u'a', u'U.S.', u'Postal', u'Service', u'contract', u'that', u'\*T*-1', u'will', u'have', u'a', u'value', u'of', u'at', u'least', u'$', u'33', u'million', u'\*U*', u'.']