Machine learning 是否生成与相应实体的嵌入关系/边值相关的上下文样本？_Machine Learning_Word2vec_Embedding_Ner

Machine learning 是否生成与相应实体的嵌入关系/边值相关的上下文样本？

machine-learning

Machine learning 是否生成与相应实体的嵌入关系/边值相关的上下文样本？,machine-learning,word2vec,embedding,ner,Machine Learning,Word2vec,Embedding,Ner,我正在尝试构建自己的语料库/文本数据集来训练特定领域的NER。我的实体主要基于数字，部分依赖于上下文进行分类。没有适合我的情况的特定数据集。因此，我正在生成自己的文本和上下文我的想法是基于单词生成上下文，这些单词的嵌入与我想要分类的实体相似。确保上下文不断更改，以保持模型的通用性，并且不会过度适合特定的单词一个类似的例子（不是我的具体案例）是：尝试在文本中标记IP地址。我的想法是找到所有与单词IP或computer的文本嵌入相关的单词。例如，类似的嵌入将是具有0.8边值的software 我

我正在尝试构建自己的语料库/文本数据集来训练特定领域的

NER

。我的实体主要基于数字，部分依赖于上下文进行分类。没有适合我的情况的特定数据集。因此，我正在生成自己的文本和上下文

我的想法是基于单词生成上下文，这些单词的嵌入与我想要分类的实体相似。确保上下文不断更改，以保持模型的通用性，并且不会过度适合特定的单词

一个类似的例子（不是我的具体案例）是：尝试在文本中标记IP地址。我的想法是找到所有与单词

IP

或

computer

的文本嵌入相关的单词。例如，类似的嵌入将是具有

0.8

边值的

software

我的问题是:

如何从嵌入层（例如word2vec？）轻松提取相似的单词。我该如何确定截止点？从最高相似度到最低值列出所有单词，并手动确定一个截断点（当我认为单词不足以作为实体<代码> IP地址< /代码>的上下文时）。或者自动化流程就足够了？提取所有单词直到指定的截止点，例如
```
0.8
```
相似性边缘/关系值
相对于实体的单词相似性，我应该生成多少样本？例如，我为实体
```
IP地址
```
生成100个样本文本，然后我是否应仅基于单词
```
软件
```
生成80个上下文样本，因为它与
```
IP地址
```
具有
```
0.8
```
相似性边缘/关系值

-1.0

1.0

0.8

-1.0

1.0

0.8