Nlp 如何为支持向量机的关系提取构建特征?

Nlp 如何为支持向量机的关系提取构建特征?,nlp,nltk,information-extraction,Nlp,Nltk,Information Extraction,感兴趣的领域:信息提取 这对我来说是非常新的,我试图理解如何设计特征(无论是词汇还是语义),以便了解信息提取中的关系 从论文中可以看出,在两个命名实体之间的关系中采用监督学习特征的一个简单步骤是 * The sequence of words between the two entities * the part of speech tags of these words * bag of words between the two words 两个实体之间的单词数量是否应该根据您所看到的训练

感兴趣的领域:信息提取

这对我来说是非常新的,我试图理解如何设计特征(无论是词汇还是语义),以便了解信息提取中的关系

从论文中可以看出,在两个命名实体之间的关系中采用监督学习特征的一个简单步骤是

* The sequence of words between the two entities
* the part of speech tags of these words
* bag of words between the two words
两个实体之间的单词数量是否应该根据您所看到的训练句子而变化?那么,如何构建大小不一致的特征向量呢

例如,请参阅以下两句话,了解具有关系的学习者和组织:的所有者

1. Mike is the owner of the company called, Spark.
2. Denis owns the black building called Halo.
对于示例1,Mike和Spark之间的字数是[is,the,owner,of,the,company,called],这是7个特征词,而对于示例2,我们有[owns,the,black,building,called]5个特征词

我在哪里误解了这个问题?
谢谢大家!

我相信你在第三点中的意思是“两个实体之间的文字袋”。单词袋模型创建向量,不考虑词序,并考虑语料库的整个词汇。每个词的出现频率被用作训练分类器的特征

根据您的示例进行调整:

Sentence 1: "Mike is the owner of the company called, Spark."
Sentence 2: "Denis owns the black building called Halo"
从这两个句子中,假设停止词(即,the,is,of等)被删除,并且您将句子拆分为单独的标记,词汇如下:

vocabulary = {owner, company, called, owns, black, building}
然后,您可以使用每个单词的原始频率(注意:您还可以应用更复杂的度量,如TF-IDF):

您可以通过应用柠檬化技术来减少向量的维数,例如将动词简化为词根形式。这可以在Python NLTK中完成:

>>> from nltk.stem.wordnet import WordNetLemmatizer
>>> lmtzr = WordNetLemmatizer()
>>> lmtzr.lemmatize("owns","v")
u'own'
>>> lmtzr.lemmatize("owned","v")
u'own'
“v”表示与每个单词相关的词性(PoS)标记,在本例中为动词。您还可以获得带有NTLK的句子的词性标签:

>>> s = "Denis owns the black building called Halo"
>>> tokens = nltk.word_tokenize(s)
>>> print nltk.pos_tag(tokens)
>>> [('Denis', 'NNP'), ('owns', 'VBZ'), ('the', 'DT'), ('black', 'JJ'),('building', 'NN'), ('called', 'VBN'), ('Halo', 'NNP')]
应用词干分析技术,你的词汇将是:

vocabulary = {own, company, called, black, building}
我相信他们在论文中提到的单词序列是类似的,但是你提取了标记序列,而不是简单的标记,这也被称为n-grams

请注意,您还可以设置一个特征(即特征向量中的维度),该特征是一个字符串,包含两个实体之间的单词序列或PoS标记序列

你能准确地指出你提到的论文吗?那可能会有帮助 进一步澄清答案

此外,请检查:


在SemEval-2010关于名词间语义关系的多向分类的任务8中取得了最好的结果。它们列出了45种不同的特征,可以作为你工作的灵感。

那么,词汇特征的大小就是给定文本中总词汇的大小?这就是我困惑的地方,如果我所说的是正确的,那么现在一切都有意义了。如果这是真的,那么对于非常大的文档,特征向量的大小必须非常大,因为它们会有更多的独特单词,这是我正在阅读的其他几篇参考文献中的两篇。
vocabulary = {own, company, called, black, building}