我正在使用python的内置库nltk来获得stanford ner tagger api设置,但我发现此api对单词的标记与stanford的ner tagger网站上的在线演示不一致。一些单词在在线演示中被标记,而它们在python中不在api中,类似地,一些单词被标记的方式不同。我使用了与网站中提到的分类相同。有人能告诉我为什么会出现这个问题以及解决方案是什么吗?我遇到了同样的问题,并确定我的代码和在线演示对文本应用了不同的格式规则
您使用的是什么版本的CoreNLP?我们偶尔会在发布之
我想运行一个性能非常出色的系统,比如92.0%的UAS,89.7%的LAS(Chen&Manning,2014)。我试着按照他们的指示去做,但得到了令人伤心的数字:66.2%的UAS,62.0%的LAS。谁能告诉我我做错了什么
命令:
PENN_TEST_PATH="test.mrg"
CONLL_TEST_PATH="$PENN_TEST_PATH.dep"
cat penntree/23/* > $PENN_TEST_PATH
java -cp stanford-parser-
我在这里有一个解析树:
我想要的是从子树的子树集合中给定一个单词的公共父级获取所有单词。例如,如果你用单词“瓶子”,那么我想得到“沃斯瓶””或者甚至“沃斯瓶水””,但我不知道怎么做
Annotation document = new Annotation(sentenceText);
this.pipeline.annotate(document);
List<CoreMap> sentences = document.get(SentencesAnnotation.class
我试图在任务中使用Stanford CoreNLP检测命名实体
我已经在我的RegexNER映射文件中给出了如下规则:
Train VEHICLE_TYPE 2.0
但它将列为刑事指控实体类型
我已经添加了这个选项ner.applyFinegured,并将其设置为true,这可能就是为什么它会被CoreNLP的CRF模型覆盖
我的问题是如何在RegexNER映射文件中添加这样的异常,或者是否有更好的方法。您应该使用以下设置:
# run fine-grained NER with a
更新
这一个似乎工作得更好,但我得到了一个io异常文件名太长的错误,这是关于什么,如何修复它
我猜文档中的另一个命令不起作用
我试图用这个脚本来处理斯坦福大学CoreNLP的语料库,但我一直得到错误
Could not find or load main class .Users.matthew.Workbench.Code.CoreNLP.Stanford-corenlp-full-2015-01-29.edu.stanford.nlp.pipeline.StanfordCoreNLP
这是
我们一直在使用corenlp包(2014年6月版本;带有默认注释器)主要用于依赖项解析
最近,我注意到,在诸如“英格兰银行今天宣布进一步加息”之类的案例中,名词复合括号出现了一个问题。-名词复合括号中的“”加息“”被错误地括起来(利息被解析为修饰增加而不是比率)。当你把这个句子放在斯坦福语法分析器的在线演示中,以及其他类似的句子中,一个名词复合词实质上修饰了另一个名词时,情况也是如此
我的一位同事比我做的更多,他说这可能是因为该模型已经在Penn Treebank的未修补版本上进行了培训。而我们
我知道如何注释一个句子并得到每个单词的引理,但如果我只想把一个单词的引理化,我不知道怎么做。我试过了
Annotation-tokenAnnotation=新注释(“婚礼”);
List List=tokenAnnotation.get(SentencesAnnotation.class);
字符串标记引理=列表
.get(0).get(TokensAnnotation.class)
.get(0.get(LemmaAnnotation.class);
但是tokenAnnotation只有一
我使用的是Stanford NER,我在
但我不知道这个实体的真正代表是什么,有人知道那个实体是什么吗
感谢MISC是CoNLL 2003评估数据中的一个类别,通常用于开发NER模型。老实说,我认为除了“是一个命名实体”和“不是个人、组织或LOC”之外,没有任何其他定义。MISC是CoNLL 2003评估数据中的一个类别,通常用于开发NER模型。老实说,除了“是一个命名实体”和“不是个人、组织或LOC”之外,我不认为有任何关于MISC的定义。我在spaCy上找到了以下描述:
杂项:杂项实体,如事
我正在看在线演示:
尝试一个简单的测试案例,比如:约翰·钱伯斯在伦敦(英国)和孟买(印度)学习。
3类分类器识别人员,7类分类器不识别人员。似乎我需要在两个模型上运行解析器:一次识别人员、位置和组织。一次仅针对货币?当我运行此命令时,它会在您的示例中找到所有适当的实体:
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -file sample-sente
我们正在尝试对数百万条评论/反馈实施名称实体识别,但过程似乎很慢。我们正在考虑从课文中删除停止词/常用词,并对其应用ner。删除停止词会影响ner的准确性吗?我认为,如果你在一个删除了停止词的句子上运行,你会得到令人尊敬的F1分数。最终,您必须对其进行试验,看看其质量是否符合您的需要。性能-肯定有所提高,准确性-大致相同。
我正试图为评论写一个情绪预测。斯坦福大学的博士们说,写得不好的输入,例如大写,可能会丢掉他们的工具,比如情绪检测。这就是我现在所处的困境
我有以下资料:
Properties prop = new Properties();
prop.setProperty( "annotators", "tokenize, ssplit, truecase, pos, parse, sentiment" );
StanfordCoreNLP pipeline = new StanfordCoreNLP( pr
在我的应用程序的前面部分,我使用了stanford-parser-2.0.4-models.jar。现在我想将我的应用程序移植到stanford-corenlp-3.2.0-models.jar。在我的应用程序中,我使用了edu.stanford.nlp.trees.EnglishGrammaticRelations.PURPOSE_子句_修饰符和edu.stanford.nlp.trees.EnglishGrammaticRelations.EnglishGraphics.COMPLEMENT
情绪注释提供了一个带注释的树,在其节点上附加注释,用于预测情绪。
此树与解析注释提供的解析树不同。
例如,对于这句话:
I don't know half of you half as well as I should like; and I like less than half of you half as well as you deserve.
这是解析树:
(ROOT
(S
(S
(NP (PRP I))
(VP (VBP do) (RB n't)
有人能帮我理解评估摘要,同时测试一个经过培训的模型吗?什么是标签混淆矩阵和根标签混淆矩阵 见。我们跟踪每个标签/根标签的(错误)分类,并使用此表结构报告结果
我试图使用斯坦福NER在nltk中进行中文实体识别,但无法定位分类器。有人知道这在哪里吗
网站上提供了模型,但没有提供分类器
在此处找到分类器的副本:
但它在ntlk上不起作用
并给出以下错误:
无法找到或加载主类edu.stanford.nlp.ie.crf.crfclassizer
java -mx1000m -cp stanford-ner.jar;stanford-chinese-corenlp-2016-10-31-models.jar;lib/* edu.stanford.nlp.i
我创建了自己的NER模型。在使用时,我得到了以下异常:
Error deserializing ../classifiers/ner-model.ser.gz.
Error snipet is:
Loading classifier from .../classifiers/ner-model.ser.gz ... Error deserializing /home/hrudya/Music/WORKSPACE_SAP/NER/classifiers/ner-model.ser.gz
Exce
我想为斯坦福大学的NER提供一些建议,我想知道检测新实体的最佳方法是什么:
是否使用RegexNer检测新实体
使用新实体培训我自己的NER模型
提前感谢。如果您可以轻松生成要标记的实体类型的大型列表,我建议使用RegexNER。例如,如果你想给运动队加上标签,只需编制一个庞大的运动队名称列表并直接匹配就可能更容易了。构建一个大型培训集需要花费大量的精力
如何将斯坦福NLP提供的默认模型(english.all.3class.distsim.crf.ser.gz)与我的自定义模型(ner model.ser.gz)结合起来?我想承认丰田是一个“PERS”实体,句子的其余部分是默认的“O”实体。引擎必须将其识别为“PERS”实体,以供斯坦福德NLP日后使用(情绪/概念)
我已经按照中的说明对自定义模型进行了培训。我使用以下代码组合分类器:
String serializedClassifier = "ner-model.ser.gz
需要解析像“Bob生于1979年1月15日”这样的句子,并提取日期。如何创建新规则来处理日期表达式
如果我使用“Bob出生于1979年1月15日”,解析器将提取正确的日期01/15/1979。简单地将“十五”改为“十五”会导致错误的解析
val input = "Bob was born on Jan fifteenth nineteen seventy nine."
val document = new CoreDocument(input)
val props = new P
我试图从UIMA RUTA内部给ClearTK的StanfordCoreNLPAnnotator打电话,但无法让它工作。我将eclipse与一个支持maven的RUTA项目一起使用,在该项目中,我还拥有用于辅助任务的Java代码。我已经使用maven导入了cleartk stanford corenlp 0.8
我尝试在脚本中使用这一行:
ENGINE utils.MyStanfordEngine;
。。。其中,utils/mystanfordeengine.xml是使用以下java代码创建的
我注意到整个图书馆相当大,大约300MB。但我只使用tokenize、ssplit和pos。我怎样才能创建一个轻库?非常感谢
最好的,
Huang如果您只需要词性标记,则可以只包含词性标记器模型;例如,下载自:nlp.stanford.edu/software/tagger.shtml。您也可以放心地从models jar中删除不需要的模型,使其更小。谢谢。我尝试使用winzip解压和删除不必要的文件和zip文件。它不起作用。然后我尝试在eclipse中创建一个项目,从eclipse中删除文件并
我已经使用stanford-corenlp-full-2015-01-29将MALT解析器生成的基本依赖项转换为CCprocessed依赖项。
在我的实验中,我想比较MALT和Stanford Parser,因此我使用s Stanford-corenlp-full-2015-04-20使用神经网络模型解析相同的文本。
我的问题是:2015-04-20和2015-01-29之间是否存在显著的差异,就非普遍依赖性而言?在这种情况下,为了不影响比较,我需要使用旧版本进行解析,或者使用新版本重新进行转换
我下载了斯坦福NLP 3.5.2,并使用默认配置运行情绪分析(即,我没有更改任何内容,只是解压缩并运行)
test.txt文件从(包含train.txt、dev.txt和test.txt)下载。下载链接来自
然而,在论文“Socher,R.,Perelygin,A.,Wu,J.Y.,Chuang,J.,Manning,C.D.,Ng,A.Y.和Potts,C.,2013年10月。情绪树库上语义成分的递归深层模型。自然语言处理中的经验方法会议录(EMNLP)(第1631卷,第1642页)。”作者报
我不能使用openie的选项,
我正在使用这个命令
java -mx3g -resolve_coref -cp "*" edu.stanford.nlp.naturalli.OpenIE
我得到的错误是
Unrecognized option: -resolve_coref
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.
此
我试图使用斯坦福代币器,并从其网站上获得以下示例:
import java.io.FileReader;
import java.io.IOException;
import java.util.List;
import edu.stanford.nlp.ling.CoreLabel;
import edu.stanford.nlp.ling.HasWord;
import edu.stanford.nlp.process.CoreLabelTokenFactory;
import edu.s
我在努力寻找英语句子的语义标签。
我正在使用斯坦福NLP解析器。有没有办法呢
我正在浏览文档,但我能找到的最接近的东西是:
CoreAnnotations.SemanticWordAnnotation
CoreAnnotations.SemanticTagAnnotation
不,我们目前在CoreNLP中没有语义角色标记(SRL)系统
除非您已经有了一个明确要求语义角色标签的系统,否则我建议您看看这个表示。尽管这种表示主要是一种语法表示,但它也编码了许多语义,在许多语义任务中与SRL一样有效
有没有办法将核心NLP情绪分析的输出保存在文件中,而不是在输出中发送消息
发送结果消息的我的代码:
`
NLP.init()
`
一旦聊天内容从这篇文章中删除,它看起来就相当简单了。我不知道这项技术,但关于您试图解决的问题,您是否可以补充更多细节?谢谢@halfer的评论。例如,它的corenlp将结果显示为消息,将推文的情绪显示为负面和正面,但它显示的是输出中的消息,而不是将其保存在文件中。我们可以看到控制台输出的示例,编辑到问题中吗?假设你使用的是*nix类操作系统,你能用grep过滤它们吗
我正在尝试使用网络训练一个NER模型。我有一个所需格式的文件,大小为6GB。配置文件:
usePrevSequences=true
useClassFeature=true
useTypeSeqs2=true
useSequences=true
wordShape=chris2useLC
useTypeySequences=true
useDisjunctive=true
noMidNGrams=true
serializeTo=ner-model50.ser.gz
maxNGramLeng=6
大家好,提前谢谢你们的帮助。我对尝试使用斯坦福NLP是一个全新的尝试,我正在努力学习斯坦福大学的C#示例。我收到一个错误:
stanford-corenlp-3.9.1.dll中发生类型为“edu.stanford.nlp.io.RuntimeIOException”的未处理异常
其他信息:无法从edu/stanford/nlp/models/kbp/regexner_caseless.tab读取令牌regexner
正在以下行中抛出错误:
var pipeline = new Stanford
从以下站点下载CoreNLP服务器后,当我将实体注释作为注释器包括在内时:
wget --post-data 'Mark Ronson played a concert in New York.' 'localhost:9000/?properties={"tokenize.whitespace": "true", "annotators": "tokenize,ssplit,pos,entitymentions", "outputFormat": "json"}'
返回的json如下所示,尽
据我所知,要创建一个培训文件,您需要将您的单词放入一个文本文件中。然后在每个单词后,添加空格或制表符以及标签(如PERS、LOC等)
我还将一个示例属性文件中的文本复制到一个word pad中。如何将这些内容输入到gz文件中,以便输入分类器并使用
请引导我。我是一个新手,对技术相当不熟练。我建议您查看NLTK文档,了解有关训练解析器的更多信息
. 现在,您似乎想要训练CRFClassizer(而不是解析器!);为此,您可能需要检查此常见问题解答您的培训文件(例如培训数据.tsv)应如下所示:
I
我正试图使用斯坦福大学的OpenIE(3.6.0版)来提取基于我在化学领域训练过的NER模型的关系三元组。然而,我不能让OpenIE根据我自己的NER模型提取关系三元组。OpenIE似乎仅基于包中提供的默认NER模型提取关系三元组
以下是我为培训和部署我的NER模型所做的工作:
基于神经网络训练神经网络模型
在CoreNLP服务器中部署NER模型,然后重新启动服务器。我修改了corenlpserver.sh中的props属性。props属性现在如下所示:
props=“-Dner.model=$
我在我的项目中与NLP合作,我使用斯坦福NLP进行标记化和NER。我现在对SRL感兴趣,我想问一下斯坦福NLP是否支持影子语义解析?如果有,那么从maven或Jar文件以及支持模型文件(如果有)的角度来看,我在哪里可以得到它呢?不,不幸的是,它没有。有关更详细的答案,请参阅以下帖子:
我正在使用最新版本[3.8.0]的CoreNLP和python包装器[py CoreNLP],我意识到当我使用以下注释器进行注释时,从CoreNLP获得的输出之间存在一些不一致性:tokenize、ssplit、pos、depparse、parse,以及。更重要的是,斯坦福大学的解析器,无论是在我的代码中调用它,还是在我在线运行它时,都给了我与CoreNLP相同的结果
例如,我有以下问题(借用自Free917问题语料库):
马歇尔·霍尔是哪所大学的教授
使用CoreNLP,我得到以下解析:
(词
有没有办法在Rascal中调用外语API?特别是,我一直在考虑具有Java API的应用程序。Rascal具有出色的Java API。本质上,外部函数定义为一个普通的Rascal函数,前缀为关键字java和一个属性javaClass,该属性定义了实现该函数的类
以Lists上的size函数为例。在Rascal的列表中模块大小定义如下:
@javaClass{org.rascalmpl.library.Prelude}
public java int size(list[&T] lst);
我想从句子中提取信息。我是这个领域的新手。我的句子如下:
“Andrew query pizza king今天的交易是什么”
“安德鲁命令花店给我妻子送玫瑰”
格式:
在standford NLP解析器的帮助下,如何按照上述格式提取句子?例如,在提取后,如果我想打印它应该给出的句子的动作{今天的交易是,我给我的妻子送玫瑰}这是一项艰巨的任务。如果你有一组非常非常有限的句子,你可以试着用规则来模拟你的问题。然而,我把你的句子通读了一遍,结果显然是错误的:
(ROOT
(FRAG
(
我正在尝试多线程注释,但对访问ann表示不满
从运行()。你知道吗
Properties props = new Properties();
props.setProperty("annotators", "tokenize,ssplit,parse");
StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
Annotation ann = new Annotation("your sentence here");
for (int i
我计划使用StanfordCoreNLP进行情绪分析练习
有人能告诉我安装/使用stanfordcorenlp型号的步骤吗?英语完整版和英语kbp
我已经从他们的网站下载了stanfordcorenlp。
文件名为:stanford-corenlp-full-2018-10-05.zip
现在,我想使用他们的其他英语模式,如英语完整版和英语kbp
如果有人能让我知道添加上述两个模型的步骤
先谢谢你
使用stanfordcorenlp导航到目录
解压缩到所需的目录中
cd/stanford-c
我正在进行共指消解任务,我想使用斯坦福大学的CoreNLp,但我需要它作为一个web服务,通过发送句子,它将检索带有已消解回指的句子。
我在斯坦福大学的网站上找到了这个页面
因此,任何人都知道这样做的服务,或者我如何才能从本网站获益
谢谢
我们使用一个内置在.jsp中的TomcatServlet来服务解析请求。这样做的好处是它支持“restful”和接口
使用java代码非常容易
这是斯坦福大学的约翰·鲍尔(John Bauer)在谈到他们产品的解析器部分时说的,但可能也适用于coreNLP
我感兴趣的是对报告的不同问题进行问题类型分类
例如:
句子1-数据库从昨天起就没有响应。我们需要你的帮助
句子2-我们的网络速度非常慢,我无法ping服务器
语句3-我们的MSSQLServer自动重启
从这些句子中,我们需要摘录:
语句1-“数据库没有响应”
第2句-“网络性能”
第3句-“MSSQLServer重新启动”等
在某些情况下,句子可能有点复杂,如下所示:
我们在升级db的开发安装时遇到了一个问题
由此,我们需要了解问题是与升级相关的问题
我正在使用Stanford依赖项解析器对此
我正在尝试为corenlp训练我自己的情绪分析模型。我想用java代码(不是从命令行)来完成这项工作,所以我从中复制了一些片段来准备数据,然后从中复制一些片段来进行实际的培训。我将前一个链接(第171-226行)的代码在我自己的代码中进行了一点压缩(以了解发生了什么),压缩为以下内容:
String text = IOUtils.slurpFileNoExceptions(inputPath);
String[] chunks = text.split("\\n\\s*\\n+"); /
我试图在一系列文件上运行Stanford POS tagger,但是-filelist选项出现问题。每当我使用-filelist运行命令时,都会要求我键入文本,这是未指定文件时的默认值。但是文件列表给出了它的完整路径(文件存在——我仔细检查了),该文件包含两个文件的名称,同样是完整路径,每行一个(也仔细检查了,它们就在那里)
我的电话,来自Linux(Mint)终端:
java -mx2g -classpath stanford-postagger.jar edu.stanford.nlp.ta
我目前正在使用斯坦福CoreNLP的OpenIE系统,使用它的Java命令行界面
java -mx32g -cp stanford-corenlp-3.8.0.jar:stanford-corenlp-3.8.0-models.jar:CoreNLP-to-HTML.xsl:slf4j-api.jar:slf4j-simple.jar edu.stanford.nlp.naturalli.OpenIE test_file.txt -threads 8 -resolve_coref true
我
据我所知,需要使用文本数据调用StanfordNLP API,但根据这些文档,建议使用fileList来加快处理速度并避免加载模型,因此是否有方法在StanfordNLP API中为NER或coref或任何其他子模块发送fileList?使用以下命令:
java -Xmx14g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner -fileList file_list.txt -o
我想知道如何最好地组合我从word2vec、GLOVE或BERT等不同算法生成的不同嵌入以生成最终嵌入。组合多个生成方法的向量的一个简单方法是将它们连接起来。也就是说,如果一个方法中有一个300维向量表示单词'apple',另一个方法中有另一个300维向量表示该单词,则将这两个向量连接成一个600维向量
但是,你为什么要这么做?你确定那会有帮助吗?在将其作为惯例采用之前,您应该在一个小试验中明确测试这些额外步骤是否值得复杂化
例如,Word2vec和Glove在模型上非常相似——你可能会发现,花
我想使用一个由多个文件组成的语料库来训练斯坦福的标记者,这个语料库将在将来扩展
是否有可能更新现有的模型,或者我每次都必须使用整个语料库进行训练
有没有关于如何使用API进行培训的示例?MaxentTagger的JavaDoc仅涵盖通过命令行进行的培训
谢谢大家! 目前,您每次都必须使用整个语料库进行训练。(从理论上讲,用附加数据更新模型是可能的,但这不是目前存在的,也不是我们的首要任务。)
我们所有的模型训练都是从命令行开始的。。。。实际上,从代码上看,train方法似乎是私有的,因此您需要将
有没有一种方法可以使用Stanford CoreNLP处理已经标记了POS的文本
例如,我有这个格式的句子
They_PRP are_VBP hunting_VBG dogs_NNS ._.
我想通过强制给定的POS注释,用引理、ner、parse等进行注释
更新。我试过这个代码,但不起作用
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, lemma");
我正在写一个tokens正则表达式,我需要检查下面是否没有更多的token。我正在使用[]{0}来执行此操作,但它不起作用
具体来说,对于这样的短语,“在星期二或之后”,我的tokens regex是
/在| at | for/[ner:/DATE | TIME/]/和|或//after | later/[]{0}
但是,这个表达式也与“在星期二或星期四之后”匹配,这在语义上与“在星期二或星期四之后”不同。你知道如何检查后面没有标记,或者重新编写正则表达式以匹配第一个短语而不是第二个短语吗?谢谢
标签: Stanford Nlp
named-entity-recognitionlemmatizationpart-of-speech
我正在使用斯坦福注释器NER,我注意到引理是NER的先决条件。谁能解释一下,为什么会这样。更重要的是,为什么我在做NER之前还要做POS
斯坦福注释器的依赖项是给定的通过查看我们分发的NER模型,我没有看到其中任何一个在其设置中有“useLemmas”标志。这就是说,NER模型可以使用引理作为特征,因此NER注释器需要这样做
引理注释器需要词性标记,这就是为什么需要词性标记的原因。POS是一个基本过程,有其他功能的帮助……如
POS用于标记您的数据,之后,NER只需使用名词标记即可轻松处理数据,
如何使用斯坦福大学CoreNLP的自然逻辑组件
我使用的是CoreNLP 3.9.1,我在命令行中将natlog作为注释器输入,但我似乎在输出中看不到任何natlog结果,即,OperatorAnnotation和PolarityAnnotation,根据。这和outputFormat有什么关系吗?我尝试过xml和json,但都没有自然逻辑的输出。不过,其他东西(标记化、dep解析)也在其中
这是我的命令:
./corenlp.sh -annotators tokenize,ssplit,pos
上一页 1 2 3 4 5 6 ...
下一页 最后一页 共 14 页