Python 如何在spacy中表示抄本中的未知/空白单词?
我正在处理音频记录中的文本,其中有一些未知单词。每个未知单词都有标记(例如,“商店不知道他”)。我正在寻找表示“未知”单词的最佳方法,以便将spacy的句子依赖性解析搞得最少 为了提高spacy的句子依赖解析器在最广泛的句子范围内发挥最佳作用的可能性,最好的替代方法是什么?是一个空格/“”还是一个“_____;”或一个“…”,或者这无关紧要?没有结构来确定\发生的时间/地点Python 如何在spacy中表示抄本中的未知/空白单词?,python,nlp,text-processing,spacy,Python,Nlp,Text Processing,Spacy,我正在处理音频记录中的文本,其中有一些未知单词。每个未知单词都有标记(例如,“商店不知道他”)。我正在寻找表示“未知”单词的最佳方法,以便将spacy的句子依赖性解析搞得最少 为了提高spacy的句子依赖解析器在最广泛的句子范围内发挥最佳作用的可能性,最好的替代方法是什么?是一个空格/“”还是一个“_____;”或一个“…”,或者这无关紧要?没有结构来确定\发生的时间/地点 谢谢 如果单词未知,最好简单地删除它们并截断多余的空间。如果spacy词汇表中不包含未知单词/标记,它们将导致依赖项解析混
谢谢 如果单词未知,最好简单地删除它们并截断多余的空间。如果spacy词汇表中不包含未知单词/标记,它们将导致依赖项解析混乱,用特殊字符替换它们也是如此
He / to the store
产出:
He ROOT
/ punct
to prep
the det
store pobj
鉴于
He to the store
产出:
He ROOT
to prep
the det
store pobj
如果您删除它们,那么基本上您会得到一个对其余转录正确的依赖性解析 太好了。非常感谢。