Machine learning 是否生成与相应实体的嵌入关系/边值相关的上下文样本?

Machine learning 是否生成与相应实体的嵌入关系/边值相关的上下文样本?,machine-learning,word2vec,embedding,ner,Machine Learning,Word2vec,Embedding,Ner,我正在尝试构建自己的语料库/文本数据集来训练特定领域的NER。我的实体主要基于数字,部分依赖于上下文进行分类。没有适合我的情况的特定数据集。因此,我正在生成自己的文本和上下文 我的想法是基于单词生成上下文,这些单词的嵌入与我想要分类的实体相似。确保上下文不断更改,以保持模型的通用性,并且不会过度适合特定的单词 一个类似的例子(不是我的具体案例)是:尝试在文本中标记IP地址。我的想法是找到所有与单词IP或computer的文本嵌入相关的单词。例如,类似的嵌入将是具有0.8边值的software 我

我正在尝试构建自己的语料库/文本数据集来训练特定领域的
NER
。我的实体主要基于数字,部分依赖于上下文进行分类。没有适合我的情况的特定数据集。因此,我正在生成自己的文本和上下文

我的想法是基于单词生成上下文,这些单词的嵌入与我想要分类的实体相似。确保上下文不断更改,以保持模型的通用性,并且不会过度适合特定的单词

一个类似的例子(不是我的具体案例)是:尝试在文本中标记IP地址。我的想法是找到所有与单词
IP
computer
的文本嵌入相关的单词。例如,类似的嵌入将是具有
0.8
边值的
software

我的问题是:

  • 如何从嵌入层(例如word2vec?)轻松提取相似的单词。我该如何确定截止点?从最高相似度到最低值列出所有单词,并手动确定一个截断点(当我认为单词不足以作为实体<代码> IP地址< /代码>的上下文时)。或者自动化流程就足够了?提取所有单词直到指定的截止点,例如
    0.8
    相似性边缘/关系值
  • 相对于实体的单词相似性,我应该生成多少样本?例如,我为实体
    IP地址
    生成100个样本文本,然后我是否应仅基于单词
    软件
    生成80个上下文样本,因为它与
    IP地址
    具有
    0.8
    相似性边缘/关系值

    • 你的问题很难回答,因为它太抽象了。不清楚实际的领域是什么;没有你的“伪文本”的例子;从你尝试过的事情中,没有发现任何暂时的结果,你可以根据这些结果提出改进建议

      由于在这种程度上,对于一个不明确的问题没有合适的答案,因此您可能必须尝试一些方法,然后检查令人鼓舞和不满意的结果组合(此处可能共享),以发现相似性级别或伪文本生成计数的可能有用阈值

      例如,这些模型的相似性值,即使它们总是在
      -1.0
      1.0
      范围内,也不能很好地映射到人类的“X%相似”概念。如果更改模型元参数,令牌可能仍然具有非常相似的“前10位”邻居,但余弦相似性值相差很大。(至少在您决定冻结模型元参数和训练数据的某些方面之前,秩排序可能远比原始余弦相似数重要/稳定。)因此,任何人都无法推荐类似
      0.8
      的阈值,甚至无法确保任何此类阈值都是合理的,没有更多领域/模型/最终目标特定的实验。(此时,可能会在绝对余弦相似性或所有相似性的前百分位或某些邻居列表中发现一些特定于项目的阈值。)

      同样,对于生成合成文本样本,也没有固定的答案。您需要真实的变化来反映底层域的微妙之处。如果1000个样本是几乎相同的重复,那么它们并不比100个好——你可以将100个样本每次重复10次,或者增加模型的训练“历次”,以获得相同的效果——但如果数据没有真正的变化,模型将无法学到更多。同样,您需要对数据、模型和最终有用性目标进行迭代试验


      有些人将类似word2vec的算法应用于巨型图,通过图中不同长度的随机游动创建“文本”。如何创建这样的行走——即特定的“节点”/唯一令牌“应该”在培训数据中出现几十次、数百次还是数千次——可能会受到该节点/令牌在下游应用程序中的重要性、其内外边缘的真实变化程度等的影响。同样,这是一个实验和尝试的问题。

      你的问题很难回答,因为它太抽象了。不清楚实际的领域是什么;没有你的“伪文本”的例子;从你尝试过的事情中,没有发现任何暂时的结果,你可以根据这些结果提出改进建议

      由于在这种程度上,对于一个不明确的问题没有合适的答案,因此您可能必须尝试一些方法,然后检查令人鼓舞和不满意的结果组合(此处可能共享),以发现相似性级别或伪文本生成计数的可能有用阈值

      例如,这些模型的相似性值,即使它们总是在
      -1.0
      1.0
      范围内,也不能很好地映射到人类的“X%相似”概念。如果更改模型元参数,令牌可能仍然具有非常相似的“前10位”邻居,但余弦相似性值相差很大。(至少在您决定冻结模型元参数和训练数据的某些方面之前,秩排序可能远比原始余弦相似数重要/稳定。)因此,任何人都无法推荐类似
      0.8
      的阈值,甚至无法确保任何此类阈值都是合理的,没有更多领域/模型/最终目标特定的实验。(此时,可能会在绝对余弦相似性或所有相似性的前百分位或某些邻居列表中发现一些特定于项目的阈值。)

      同样,对于生成合成文本样本,也没有固定的答案。您需要真实的变化来反映底层域的微妙之处。1000个样品不比100个好