Tensorflow 当使用单词嵌入时,如何处理NLP应用程序中的词汇外单词?

Tensorflow 当使用单词嵌入时,如何处理NLP应用程序中的词汇外单词?,tensorflow,nlp,named-entity-recognition,word-embedding,Tensorflow,Nlp,Named Entity Recognition,Word Embedding,以下NLP应用程序使用单词嵌入。但是我不确定如果输入文本中的一个单词在嵌入中不可用该怎么办。是否有人知道处理NLP或NER嵌入中没有的单词的标准实践是什么?谢谢 一般来说,无论您的领域和型号如何,都可以保证使用几个OOV单词。重要的是认识到这些因素对您的任务的影响,并采取适当的措施: 找出你的整个语料库中有多少OOV单词,以及它们的频率是否足够高,足以保证除了在单词级别或更高级别忽略它们之外的任何操作,例如跳过包含OOV单词的句子 如果您的数据是特定于领域的,并且您有一些重复的OOV词汇,如技术

以下NLP应用程序使用单词嵌入。但是我不确定如果输入文本中的一个单词在嵌入中不可用该怎么办。是否有人知道处理NLP或NER嵌入中没有的单词的标准实践是什么?谢谢


一般来说,无论您的领域和型号如何,都可以保证使用几个OOV单词。重要的是认识到这些因素对您的任务的影响,并采取适当的措施:

找出你的整个语料库中有多少OOV单词,以及它们的频率是否足够高,足以保证除了在单词级别或更高级别忽略它们之外的任何操作,例如跳过包含OOV单词的句子 如果您的数据是特定于领域的,并且您有一些重复的OOV词汇,如技术术语、科学术语等,那么像fastText这样的工具将允许您快速培训本地嵌入。
像“,”这样的标点符号呢?它们不在单词嵌入中。但显然,它们不应被忽视。如何处理它们?根据模型,标点符号可以被视为功能词,因此不携带语义向量,而是通过某种更高层次的功能影响句子语义,或者像其他单词一样被指定一个向量。如果您使用的模型没有标点符号矢量,并且您认为您绝对需要它们,请尝试寻找一个这样的矢量。但是fasttext允许标点符号吗?看来标点符号是不允许的。至少在一些fasttext示例中,构建fasttext模型时首先过滤掉标点符号。或者您知道一个允许标点符号的嵌入包?为什么您首先希望标点符号具有嵌入?无论如何,大多数算法都会因为频率欠采样而忽略标点符号的影响。