Nlp 如何使用斯坦福图书馆培训我自己的NER模型？_Nlp_Stanford Nlp_Ner

Nlp 如何使用斯坦福图书馆培训我自己的NER模型？

nlp stanford-nlp

Nlp 如何使用斯坦福图书馆培训我自己的NER模型？,nlp,stanford-nlp,ner,Nlp,Stanford Nlp,Ner,我收到了数百封关于旅游信息的电子邮件。我的工作之一是将电子邮件中的一些信息保存到out system db中。我的计划是让这一切自动发生，这就是为什么我开始研究斯坦福德和IE的东西我们开始吧，这是我的电子邮件示例。它不是一个句子，甚至包含一些代码示例电子邮件我只需要名字，地点和日期从这些所以我做了我的tsv dummy-vess-corpus.tsv prop.txt 构建模型cmd 输出它根本不起作用。我一直在寻找谷歌来找出培训的方法，但我只能找到简单的例子…对于dummy-ve

我收到了数百封关于旅游信息的电子邮件。我的工作之一是将电子邮件中的一些信息保存到out system db中。
我的计划是让这一切自动发生，这就是为什么我开始研究斯坦福德和IE的东西

我们开始吧，
这是我的电子邮件示例。它不是一个句子，甚至包含一些代码

示例电子邮件我只需要名字，地点和日期从这些所以我做了我的tsv

dummy-vess-corpus.tsv prop.txt 构建模型cmd 输出

它根本不起作用。我一直在寻找谷歌来找出培训的方法，但我只能找到简单的例子…

对于dummy-vess-corpus.tsv文件中的每一行，您必须选择以下注释之一

location
time
organization
percent
money
person
date

例如dummy-vess-corpus.tsv文件应该是这样的

NO  O
.   O
PETER   person
JAKE    person
LONDON  location

如果要添加新的注释器，可以查看此

此处有相关文档：

trainFile = train/dummy-vess-corpus.tsv
serializeTo = dummy-ner-model-vess.ser.gz
map = word=0,answer=1

useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=1
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useDisjunctive=true

java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop train/prop.txt

[('NO', 'O'), ('.', 'O'), ('PETER', 'O'), ('17', 'O'), 
('HIGHSCHOOL2THOPEN', 'O'), ('LONDON', 'CITY'), (',', 'CITY'), 
('ENGLAND','COUNTRY'), ('STY', 'DATE'), ('12-13TH', 'DATE'), ('JUNE', 'MONTH'), 
('NO', 'O'), ('.', 'O'), ('JAKE', 'O'), ('12', 'O'), ('HIGHSCHOOLOPEN', 'O'), 
('LIVERPOOL', 'O'), (',', 'O'), ('ENGLAND', 'COUNTRY'), ('12,13', 'DATE'), ('JUNE', 'MONTH')]

location
time
organization
percent
money
person
date

NO  O
.   O
PETER   person
JAKE    person
LONDON  location