Nlp 如何为支持向量机的关系提取构建特征？_Nlp_Nltk_Information Extraction

Nlp 如何为支持向量机的关系提取构建特征？

nlp

Nlp 如何为支持向量机的关系提取构建特征？,nlp,nltk,information-extraction,Nlp,Nltk,Information Extraction,感兴趣的领域：信息提取这对我来说是非常新的，我试图理解如何设计特征（无论是词汇还是语义），以便了解信息提取中的关系从论文中可以看出，在两个命名实体之间的关系中采用监督学习特征的一个简单步骤是 * The sequence of words between the two entities * the part of speech tags of these words * bag of words between the two words 两个实体之间的单词数量是否应该根据您所看到的训练

感兴趣的领域：信息提取

这对我来说是非常新的，我试图理解如何设计特征（无论是词汇还是语义），以便了解信息提取中的关系

从论文中可以看出，在两个命名实体之间的关系中采用监督学习特征的一个简单步骤是

* The sequence of words between the two entities
* the part of speech tags of these words
* bag of words between the two words

两个实体之间的单词数量是否应该根据您所看到的训练句子而变化？那么，如何构建大小不一致的特征向量呢

例如，请参阅以下两句话，了解具有关系的学习者和组织：的所有者

1. Mike is the owner of the company called, Spark.
2. Denis owns the black building called Halo.

对于示例1，Mike和Spark之间的字数是[is，the，owner，of，the，company，called]，这是7个特征词，而对于示例2，我们有[owns，the，black，building，called]5个特征词

我在哪里误解了这个问题？

谢谢大家!

我相信你在第三点中的意思是“两个实体之间的文字袋”。单词袋模型创建向量，不考虑词序，并考虑语料库的整个词汇。每个词的出现频率被用作训练分类器的特征

根据您的示例进行调整：

Sentence 1: "Mike is the owner of the company called, Spark."
Sentence 2: "Denis owns the black building called Halo"

从这两个句子中，假设停止词（即，the，is，of等）被删除，并且您将句子拆分为单独的标记，词汇如下：

vocabulary = {owner, company, called, owns, black, building}

然后，您可以使用每个单词的原始频率（注意：您还可以应用更复杂的度量，如TF-IDF）：

您可以通过应用柠檬化技术来减少向量的维数，例如将动词简化为词根形式。这可以在Python NLTK中完成：

>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> lmtzr = WordNetLemmatizer()
>>> lmtzr.lemmatize("owns","v")
u'own'
>>> lmtzr.lemmatize("owned","v")
u'own'

“v”表示与每个单词相关的词性（PoS）标记，在本例中为动词。您还可以获得带有NTLK的句子的词性标签：

>>> s = "Denis owns the black building called Halo"
>>> tokens = nltk.word_tokenize(s)
>>> print nltk.pos_tag(tokens)
>>> [('Denis', 'NNP'), ('owns', 'VBZ'), ('the', 'DT'), ('black', 'JJ'),('building', 'NN'), ('called', 'VBN'), ('Halo', 'NNP')]

应用词干分析技术，你的词汇将是：

vocabulary = {own, company, called, black, building}

我相信他们在论文中提到的单词序列是类似的，但是你提取了标记序列，而不是简单的标记，这也被称为n-grams

请注意，您还可以设置一个特征（即特征向量中的维度），该特征是一个字符串，包含两个实体之间的单词序列或PoS标记序列

你能准确地指出你提到的论文吗？那可能会有帮助进一步澄清答案

此外，请检查：

在SemEval-2010关于名词间语义关系的多向分类的任务8中取得了最好的结果。它们列出了45种不同的特征，可以作为你工作的灵感。

那么，词汇特征的大小就是给定文本中总词汇的大小？这就是我困惑的地方，如果我所说的是正确的，那么现在一切都有意义了。如果这是真的，那么对于非常大的文档，特征向量的大小必须非常大，因为它们会有更多的独特单词，这是我正在阅读的其他几篇参考文献中的两篇。

vocabulary = {own, company, called, black, building}