Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/326.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在spacy中表示抄本中的未知/空白单词?_Python_Nlp_Text Processing_Spacy - Fatal编程技术网

Python 如何在spacy中表示抄本中的未知/空白单词?

Python 如何在spacy中表示抄本中的未知/空白单词?,python,nlp,text-processing,spacy,Python,Nlp,Text Processing,Spacy,我正在处理音频记录中的文本,其中有一些未知单词。每个未知单词都有标记(例如,“商店不知道他”)。我正在寻找表示“未知”单词的最佳方法,以便将spacy的句子依赖性解析搞得最少 为了提高spacy的句子依赖解析器在最广泛的句子范围内发挥最佳作用的可能性,最好的替代方法是什么?是一个空格/“”还是一个“_____;”或一个“…”,或者这无关紧要?没有结构来确定\发生的时间/地点 谢谢 如果单词未知,最好简单地删除它们并截断多余的空间。如果spacy词汇表中不包含未知单词/标记,它们将导致依赖项解析混

我正在处理音频记录中的文本,其中有一些未知单词。每个未知单词都有标记(例如,“商店不知道他”)。我正在寻找表示“未知”单词的最佳方法,以便将spacy的句子依赖性解析搞得最少

为了提高spacy的句子依赖解析器在最广泛的句子范围内发挥最佳作用的可能性,最好的替代方法是什么?是一个空格/“”还是一个“_____;”或一个“…”,或者这无关紧要?没有结构来确定\发生的时间/地点


谢谢

如果单词未知,最好简单地删除它们并截断多余的空间。如果spacy词汇表中不包含未知单词/标记,它们将导致依赖项解析混乱,用特殊字符替换它们也是如此

He / to the store
产出:

He ROOT
/ punct
to prep
the det
store pobj
鉴于

He to the store
产出:

He ROOT
to prep
the det
store pobj

如果您删除它们,那么基本上您会得到一个对其余转录正确的依赖性解析

太好了。非常感谢。