Nlp 使用Java代码培训自定义模型-Stanford NER

Nlp 使用Java代码培训自定义模型-Stanford NER,nlp,stanford-nlp,crf,Nlp,Stanford Nlp,Crf,有人能帮我把这些行转换成Java代码,而不是使用终端吗 我正在尝试使用Stanford Ner训练我自己的模型: java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer jane-austen-emma-ch1.txt > jane-austen-emma-ch1.tok perl -ne 'chomp; print "$_\tO\n"' jane-austen-emma-ch1.tok > jane-aust

有人能帮我把这些行转换成Java代码,而不是使用终端吗

我正在尝试使用Stanford Ner训练我自己的模型:

java -cp stanford-ner.jar edu.stanford.nlp.process.PTBTokenizer jane-austen-emma-ch1.txt > jane-austen-emma-ch1.tok

perl -ne 'chomp; print "$_\tO\n"' jane-austen-emma-ch1.tok > jane-austen-emma-ch1.tsv

java -cp stanford-ner.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop austen.prop

培训文件必须是.tsv格式吗?

欢迎使用stackoverflow。你能给我们看一些你已经写过的java代码吗?你在哪里卡住了?我们是来帮助你的,不是来取代你的…是的。我只关心这行代码:java-cp stanford-ner.jar edu.stanford.nlp.ie.crf.crfclassizer-prop austen.prop这是我的代码:Properties prop=new Properties();加载(新文件输入流(新文件(“austen.prop”));CRFClassizer crf=新的CRFClassizer(prop);crf.train();在属性文件中:我的所有参数都正确,但总是出现以下错误:deftab 720=未知属性:| deftab 720 | tf1ansisicpg1252cocartf1265cocooasubrtf210=tf1ansisicpg1252cocartf126cococooasubrtf210 |请发布文件的内容
austin.prop
。它似乎包含一些不好的属性(不在斯坦福大学NER网站上发布的
austin.prop
文件中)。trainFile=45_N_22_E.tsv serializeTo=mahmoud-model.ser.gz map=mstencenum=0,word=1,mindex=2,mstart=3,mend=4,mlemma=5,这是我的属性文件的内容。请注意,我更新了类:NERFeatureFactory.java、SeqClassifierFlags.java、AnnotationLookup.java、CoreAnnotations.java,以适合我上面指定的属性。对于属性“mstencenum=0”,我在SeqClassifierFlags.java中有以下行:Boolean useSentenceNum=false;在if语句中,它还有一行。对于AnnotationType.java类,我有以下内容:对于CoreAnnotations.java类,我有以下内容:对于类CoreAnnotations.java,我有以下内容:公共静态类Msentenum为类NERFeatureFactory.java实现CoreAnnotations{public class getType(){return Integer.class;}}(flags.useSentenceNum){featuresCpC.add(c.get(mstencenum.class)+“-MSM”);}