错误
原因:java.io.IOException:无法解析
“edu/stanford/nlp/models/touction/touction.ser.gz”作为任意一个类
路径、文件名或URL
代码
String text = "I am feeling very sad and frustrated.";
Properties props = new Properties();
props.put("pos.model", "edu/stanford/n
斯坦福CoreNLP中文软件包是否能够检测到成渝(成语) 名言(格言/谚语/惯用语 (例如。冰冻三尺,非一日之寒))? 也比我强!确实如此!
以下内容由斯坦福NLP管道(使用中文模型)生成:标记化、ssplit、pos、引理、ner
[
[
{
"category2":null,
"offset-begin":"0",
"ner2":"O",
"lemma2":"冰冻三尺",
"word2
我在我的web应用程序中使用Stanford NER和english.muc.7class.distsim.crf.ser.gz(16 MB大小)作为分类器。当我尝试部署和运行我的应用程序时,加载分类器时出现堆空间不足错误
如果代码没有创建太多的对象和占用空间,则尝试只保留有用的代码。但是没有成功
是因为分类器的大小吗?但我想用同样的方法,那我该怎么办呢
我已经在tomcat中使用vm选项增加了本地的堆大小。但是我可以在我将承载我的应用程序的实际服务器上增加vm的堆大小,这也不是正确的方法
有谁
我正试图用斯坦福NN依赖解析器解析一个原始中文文本文件(每句一行)
对于英文文本,我可以使用带有“ssplit.eolonly”选项的“ssplit”注释器将文档拆分为句子,但是对于中文,该选项似乎失败了。解析只对一行输入文件有效,但是如果有多行,它们将被视为一个句子
有没有一个简单的方法让“ssplit.eolonly”与中国人一起工作?我运行的命令如下所示:
java edu.stanford.nlp.pipeline.StanfordCoreNLP \
-annotators segmen
我是新来的,想知道是否有人能帮我解决以下问题
我正在用西班牙语和斯坦福大学的CoreNLP对文本进行情感分析,但没有得到积极的结果
也就是说,如果我分析任何英文文本,用西班牙语分析都是完美的,但结果总是否定的
我一直在研究如何用西班牙语配置解析器、标记化以及我发现的所有东西对情绪分析都是无用的
有人可以告诉我,如果唯一有效的东西是标记化,而情感不是西班牙语
这是我的属性文件,因此我设法找到:
注释器=标记化、ssplit、pos、ner、解析、情感
tokenize.language=en
po
我试图创建一个regex令牌,在输入文本中将大学标记为学校。例如,威斯康星大学或大学阿纳瓦克应该被标记为学校。
我有这个图案
( /University|Universidad/ /of?/ [ {ner:LOCATION}|{ner:ORGANIZATION} ]+ ) SCHOOL
我似乎不能理解正确的语法。任何帮助都将不胜感激
我正在尝试用斯坦福CoreNLP测试OpenIE
我使用下面的代码基于上的一个演示
提取,这与我使用输入文本“猫喝牛奶”得到的结果相同。如果我将“openie.triple.strict”设置为“true”,则根本不会提取三元组。有没有一种方法可以提取像猫一样的三元组|不要喝牛奶?我想你应该将“openie.triple.strict”设置为true,以确保逻辑上有保证的三元组。OpenIE并没有提取负面关系,它只是为了寻找积极的关系
因此,当“openie.triple.strict”设置为
我试图从酒店评论中提取位置,我所说的位置是指酒店名称、城市、街区、POI和国家。我使用的是一份有165000家实体的公报列表[该列表没有酒店名称]标记为位置。
我已经打开了sloppygazette,但是这个gazette帮不了什么忙。我不知道我应该在宪报的名单中包括什么
PS:就NLP而言,我是一个新手,因此对于要使用哪些功能的帮助很少,我非常感激。您好,这里有关于NER功能的更详细的新文档:
规则格式为每行一条规则:
洛杉矶城市位置,杂项1.0
中国长城地标位置,MISC 1.0
一些功能
有人知道在哪里可以找到斯坦福类型依赖手册或类似的更新版本吗?在网上可以找到,但这是从2008年开始的,看起来他们已经在某种程度上改变了标签惯例。我正在寻找依赖项标签的详细定义,希望有链接文档中的示例。斯坦福依赖项已被通用依赖项取代,成为最新CoreNLP版本中的默认模型。您可以在上找到此注释架构的文档
在Stanford CoreNLP Semgrex中,我能够找到除nmod rel之外的所有其他关系。任何其他关系,如:
{}=A <nsubj {}=B
当匹配关系中的nmod:in时,它会抛出一个错误:
{}=A >nmod {}=B
{}=A >nmod:in {}=B
如何在CoreNLP Semgrex中找到nmod:in关系?在nmod:in周围添加反斜杠可能会解决您的问题
{}=A >/nmod:in/ {}=B
我是NLP新手,希望通过一个示例帮助我了解如何在StanfordNLP解析器的openie属性下使用openie.triple.strict选项。下面是一个示例命令,您可以将该选项设置为true或false。默认值为true
java -Xmx10g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,depparse,mention,natlog,openie -file sam
我正在对新闻文章进行注释&错误地,其中一篇文章有视频转录,不幸的是,执行注释的代码无限期地等待wrapper.joinWithTimeout();&this.timeout=-1
我会过滤这么长的视频转录,但有没有什么策略可以优雅地处理来自软件的这种无限期等待
线程转储:
java.lang.Thread.State: WAITING
at sun.misc.Unsafe.park(Unsafe.java:-1)
at java.util.concurrent.loc
从3.5.2版开始,斯坦福解析器和斯坦福CoreNLP默认以Universal Dependencies v1表示输出语法关系
我想知道斯坦福大学是否仍在改进English\u SD解析器模型,还是专注于改进English\u UD。上次更新英文版的时间是什么时候
告诉我在3.7.0中发布了新的英语神经依赖解析模型,但我不确定是SD和/或UD模型。我们不再更新SD,该描述是对新UD模型的参考
首先,感谢Angel Chang编写了TokensRegex这样一个伟大的工具!
我的用例如下所示:
我的测试规则集中有两个提取规则。它们都将操作字段指定为结果,并且在操作列表中都有注释。
当要匹配的第二个规则的表达式独立于第一个规则的结果时,它们工作得很好。但是,当第二条规则的执行取决于第一条规则的结果时,事情就崩溃了。
一个具体的例子:
我有以下一句话:一致的估计要求每股收益为35.5美元,收入为305.1亿美元。
每股收益和收入已经由更基本的RegexNER注释器注释。TokensRege
我正在使用stanford corenlp完成一项任务。斯坦福网站上有两种型号“斯坦福-corenlp-3.6.0-models”和“斯坦福-english-corenlp-2016-01-10-models”。我想知道这两个模型之间的区别。根据CoreNLP概述的“支持人类语言”部分,基本发行版提供了用于分析精心编辑的英语的模型文件,即您提到的stanford-CoreNLP-3.6.0-models
但是,CoreNLP成员还提供了一个jar,其中包含了他们所有的英语模型,其中包括各种变体模
我正在尝试在gensim中加载一只经过预训练的手套作为word2vec模型。我已经从下载了手套文件。我正在使用以下脚本:
from gensim import models
model = models.KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=True)
但是得到以下错误
ValueError Traceback (most recent call
所以我们有一个螺栓,它将获取数据并尝试使用StanfordNLP解析它。主要目的是识别实体,对句子中的单词进行分类,并试图找到提及的词。下面是StanfordCoreNLP对象的设置。请注意,我在这里也添加了twitter模型
Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
props.put(
我需要您的帮助,我正在使用NetBeans v.8.0.2进行NER项目
我需要从任何阿拉伯文档文件中获取人名和地点,并将其分类为人名、地点。我看到了所有的Stanford文件,POS-tagger,parser,还有Stanford-NER。我都试过了,贴标签的效果很好
但我在解析器方面遇到了问题,尤其是在这一行代码中
LexicalizedParser lp = LexicalizedParser.loadModel(grammar, options);
从ParserDemo没有输出。我
我想用指定的文本(可能还有指定的注释器集)链接到我的CoreNLP服务器实例。(即,无需粘贴文本,然后单击提交)
有办法做到这一点吗
(我知道并使用API版本,但我正在寻找Web可视化)不,当前的可视化不允许您在URL中指定文本(尽管拉取请求总是受欢迎的;源代码仍然有效)
服务器会响应常规POST请求,例如,如果您想通过Javascript从自己的网页调用CoreNLP。例如,给定的curl命令(来自:
可视化或多或少是通过香草完成的。因此,回答我自己的问题:在您的请求成功合并后,现在这是可能的
我正在做一个项目,需要确定句子的哪个部分是独立从句,哪个部分是从属从句。为此,我使用斯坦福核心NLP解析器。根据所描述的标记和从属子句的定义,从属子句似乎具有标记SBAR,独立子句将被标记为以下之一:S、SBARQ、SINV、SQ。这似乎也是基于我使用斯坦福核心NLP解析器的轶事经验。不过,我并不完全确定,我想寻求确认,但在任何地方都找不到
过去有人问过同样的问题(参见),但答案中的链接断开了,我认为这两种方式都不能真正回答问题
TLDR;使用Stanford Core NLP解析器,如何确定句
我想在斯坦福解析器解析过程中使用gate-EN-twitter.model进行词性标记。命令行上有这样做的选项吗?比如twitter.model上的pos.model门?或者我必须先使用Stanford pos tagger with gate模型进行标记,然后将其输出作为解析器的输入
谢谢 如果我理解正确,您希望强制斯坦福解析器使用这个特定于Twitter的POS标记器生成的标记。这是绝对可能的,尽管斯坦福NLP关于这个确切模型的推特应该作为一个警告:
斯坦福NLP的推特,2014年4月13日
如何从选区解析树中提取名词短语String/Text,而不使用POS标记
我能够在不解析注释的情况下提取名词短语,但无法找到仅提取该名词短语文本的方法。
例如:
String some_sentence = "The dog ran after the intruding bigger dog";
parse Tree :**(ROOT (S (NP (DT The) (NN dog)) (VP (VBD ran) (PP (IN after) (NP (DT the) (JJ intrudin
标签: Stanford Nlp
named-entity-recognitionnamed-entity-extraction
在我的文档中,所有的句子都是用以下特定语法表达式构建的:A:person B:location C:work.如果我想提取命名实体(Tom:person),如何做?我用过,但我找不到大量数据来训练分类器,我不想这样做。所以我们可以通过其他方式找到实体 我不确定我是否理解你的问题。NER系统应该已经将人们从盒子中解救出来;请参阅文档了解如何使用。你是否在尝试对新员工重新培训NER系统?或者,您是否有要注释的人员/地点/工作的自定义列表?是的。我有一组新的人员和一个自定义的实体列表。我已经为一个新的
我试图生成一个语义图,并使用semgrex查找特定节点。
我想使用引理作为semgrex中的节点属性之一。我在这里看到了一个相关的问题和答案:
有人提到
确保节点正在存储引理-请参阅CoreNLP的引理注释器(目前仅适用于英语)
我可以使用当前管道生成所需的注释以生成语义图
Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, parse");
Stanfor
我制作了一个基本的应用程序,通过OpenIE库使用Stanford解析器,当使用指定的属性初始化StanfordCoreNLP时,它将停止为pos(pos标记器)。我确实认为所有必需的模型都包含在内,因此不确定为什么流程无法找到模型数据
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
St
我找到了Stanford pos标记器,并希望在我正在进行的项目中使用它。
不幸的是,我在尝试运行它时遇到以下错误:
线程“thread-0”java.lang.NoClassDefFoundError中出现异常:
org/slf4j/LoggerFactory
在edu.stanford.nlp.io.IOUtils.(IOUtils.java:41)
位于edu.stanford.nlp.tagger.maxent.MaxentTagger.readModelAndInit(MaxentTa
的FAQ告诉我们可以在培训时加入定制功能。
首先,NER中有哪些功能?它与tsv培训文件中的标签有何不同?
如本问题所述,在tsv的功能栏中表示标记“编程语言”、“操作系统”是否正确
有点混乱,请解释。标签是您要应用于令牌的标签。例如O、人、地点、组织、编程语言。O指非实体
特征是您希望CRF分类器在其决策中使用的令牌流的一个方面
想想“我去年夏天去了法国”这句话
标签应该是[O位置O]
例如,一个特征可以是单词本身,“word=France”
特征可以是“word_n-2_n-1=转到”序列中
我有Penn treebank(s-expression)格式的中国选区树库,我想获得conll格式的数据。我知道英语数据可以通过StanfordCoreNLP使用此命令进行转换
java -mx1g edu.stanford.nlp.trees.ud.UniversalDependenciesConverter -treeFile treebank > treebank.conllu
我也知道StanfordCoreNLP支持使用命令选择中文模型
java -mx3g -cp "*"
这就是问题所在。比方说,我有一条规则:
{
pattern: ( [ner:/DATE|TIME/] ),
action: ( Annotate($0, myNER, "MY_DATETIME" ) )
}
如何指定整个文档,而不是注释捕获组$0,有点像这样:
{
pattern: ( [ner:/DATE|TIME/] ),
action: ( Annotate( <document>, myNER, "MY_DATETIME" ) )
}
{
我试图使用Semgrex提取一个节点,该节点应该是动词live或名词life。我尝试了以下方法,但每种方法都有一个SemgrexParseException:
{lemma: live; pos: /VB.*/} | {lemma: life; pos: /NN.*/}
{lemma: live; pos: /VB.*/ | lemma: life; pos: /NN.*/}
({lemma: live; pos: /VB.*/}) | ({lemma: life; pos: /NN.*
根据Stanford CoreNLP dependencies,QuoteAnotator没有dependencies。但是,当我单独调用anotator时,会出现一个错误:
java.lang.IllegalArgumentException:注释器引号需要注释CorefChainAnnotation。此注释器的通常要求是:标记化、ssplit、pos、引理、ner
这是预期的行为吗?我是否提前运行完整的管道?文档页面不正确,我将努力修复它。在最新版本中,默认情况下,我们将quote属性添加到
我正在使用斯坦福大学CoreNLP来探索球队2.0数据集。当使用最新版本3.9.2的选区解析时,我发现这句话返回为NP根:
卡罗莱纳州的第二名球员是职业保龄球安全专家库尔特·科尔曼,他带领球队完成了职业生涯最高的七次拦截,同时也完成了88次铲球,职业保龄球后卫乔什·诺曼在本赛季发展成了一个停球角,有四次拦截,其中两次因触地而返回
但在这个演示站点中,它以S-root的形式返回(似乎是2016-9-12版本):
我发现不止一个句子有相同的情况。现在无法连接该站点。我的问题是:
这两个版本有什么不
我试图用Stanford tagger将复数替换为单数(例如从女孩到女孩)
private static final String vbnTag = "VBN";
private static final String vbdTag = "VBD";
private static final String jjTag = "JJ";
private static final String edSuff = "ed";
private static final String enSuff = "e
我正在使用CoreNLP的德语组件,并试图从文本中清除HTML标记。我尝试了cleanxml注释器clean.xmltags=.*和ssplit ssplit.htmlboundariestodcard=p,text,img,a的相关选项,但没有任何效果
这些区分大小写吗?我同时尝试了p和p,似乎没有什么不同?这与文本是德语有关吗
谢谢 好的,这是一个完全改变的答案
我正在运行Stanford CoreNLP 3.5.2,并在分发文件夹中运行以下命令:
java -Xmx6g -cp "*:."
作为问答系统的一部分,我试图通过JavaAPI使用StanfordNLP进行关系提取。我可以假设我得到了这种形式的输入语句,我想以字符串的形式返回关系。到目前为止,我一直在努力做到以下几点:
-我使用了“openie”,结果好坏参半。
-我一直在尝试直接使用类RelationExtractorAnnotator。它包含一个main,但它的执行不会终止。如果一个构造我自己的main并在其中使用类,它也不会终止
我还有其他的选择来解决这个问题吗?为什么RelationExtractorAnnotat
Standford NLP生产的PoS标签(包括标点符号的PoS)及其描述是什么
我知道这个问题已经被问过好几次了,比如:
但是这些答案列出了一些典型的PoS标签,它们不是NLP的特定标准。例如,这些答案都没有列出斯坦福NKLP使用的(标点符号)的-LRB-PoS标签
在斯坦福NLP的源代码中,我在哪里可以找到PoS标签列表
另外,使用SYMPoS标签注释的一些令牌示例是什么
另外,如何知道标记是否是标点符号?
他们定义ispunction==true,如果它的位置是:|、|、|、|、
如何获取依赖关系树,如下图所示。我可以得到纯文本形式的依赖关系,也可以借助dependencysee工具得到依赖图。但是依赖关系树呢?它以单词作为节点,依赖关系作为边。非常感谢
这些图形是使用美国电话电报公司(AT&T)研发的开源图形绘制软件包制作的。您可以在edu.stanford.nlp.trees.semgraph.SemanticGraph中找到一种方法toDotFormat(),该方法将SemanticGraph转换为dot输入语言格式,该格式可由dot/GraphViz呈现。目前,没
我需要用StanfordNLP在每句话中只去掉代理关系?我试着用
get(AbgeneAnnotation.class);如果句子是句子的一个实例,我不会得到任何输出
还有其他办法吗
接下一项质询。
多亏了StanfordNLPHelp,我能够使用定制的ner生成关系数据,并在其上使用regexner
I had to run my custom model at the end because otherwise it will misclassify lots of ORGANIZATION PERSON etc.
Example custom NER classes.
"DEGREE", "DESG"
关系训练数据的示例
0 ELECTEDBODY 0
我用sentense
他前天去世了
处理corenlp NER。
在服务器上,我得到的结果如下。
在本地,我用了同样的句子,得到了
他(O)于(O)昨日(O)前(O)天(时间)去世。(O)
那么,我如何才能获得与服务器相同的结果呢?为了提高获得相关答案的可能性,您可能需要重新表述您的问题并提供更多信息。作为奖励,在这样做的过程中,你甚至可以自己找到答案;)
例如,您使用什么url来获取服务器结果?当我勾选这里:,我可以选择多个英文模型。不确定他们的API基于哪个版本(可能是最新的稳定版本,但我不
我用斯坦福大学的CoreNLP(3.8.0)管道分析了以下两句话
我不明白的是,为什么依赖项解析器构建不同的树,即使句子在语法上是相同的。有没有办法加强一致性
例1
这些将被解析为以下内容:
例2
这里是另一个例子,使用同一个句子的变体,引入了一个名词短语
下面是我如何运行corenlp服务器
java -mx20g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9001 -timeout 35000 -pa
我最近从V3.9.2升级到StanfordCorenlpV4.0.0,并注意到它似乎降低了NER的性能。特别是,v4似乎无法识别尽可能多的实体,也无法识别URL或电子邮件。版本4也不再承认谷歌是一个组织(仍然承认微软,但我还没有在其他组织上做过很多测试)。我想知道v4的使用方式是否有变化?文档中似乎没有指出与我所看到的用法有什么不同
上的更改日志似乎并不意味着英语中的NER应该受到影响(尽管它确实指出有一个新的UDv2标记化会影响标记和解析)。我确实注意到v4和v3.9.2之间的jar文件不同,
我将使用Stanford POS tagger标记句子。我想把文档分成句子,然后把句子变成记号。因为我是第一次使用java,所以我只想从命令行运行tagger
当我运行tagger时,它给出了输出,但它给出了一个警告“不可修改”。
这个警告是什么意思?标记化不是由标记者隐式完成的吗
我曾尝试运行命令,将文本拆分为您指定的句子,但无效。标记器给出无法打开路径的错误
我还想知道如何输入文本文件的数量,并将其输出到相应的文件中,以便所有输出都不会混乱。是的,斯坦福POS标记器包括一个高质量的确定性标记
运行示例-6-llda-learn.scala时没有问题,如下所示:
val source = CSVFile("pubmed-oa-subset.csv") ~> IDColumn(1);
val tokenizer = {
SimpleEnglishTokenizer() ~> // tokenize on space and punctuation
CaseFolder() ~> // lowe
我在Linux下使用GATE for Arabic,当使用Stanford Tagger时,没有任何POS标记。所有参数均未更改(默认情况下),如何执行该任务?
这个问题是否取决于参数?必须在taggerBinary参数中设置标记器的哪个安装目录?首先,您必须在GATE中创建一个新的StanfordPOSTaggerPR,并使用StanfordTagger提供的阿拉伯语.tagger型号初始化标记器
GATE的最后一个版本是8.0,它使用了StanfordTagger 3.4。因此,您必须下载此
请问,有人能帮我从树上提取文本吗
e、 g:NP-NP-DT位于NP-NNP伦托的JJ主要NN道路PP
正文:伦托的主要道路
我正在使用stanford trees包。您需要解析树的结果。您可以使用该方法将其作为标签实例列表进行访问
我一直在看斯坦福大学的分级机。我已经能够使用一个简单的文件来训练一个模型,这个文件只有空格来分隔系统所期望的项。比如说,
/a/b/c桑费罗2号
/d/e/f ginger 2
但是,我在尝试以下表单时遇到错误:
/a/b/c圣菲罗2号
这里“san ferro”是一个“单词”,而“2”是“答案”或所需的标签输出。
如何对空格进行编码?我尝试过用双引号括起来,但没有用。通常使用CoNLL样式的数据来训练CRF。以下是一个例子:
-DOCSTART- O
John PERSON
S
我是机器学习和NLP领域的新手。我的要求是将音频通话转换为文本进行情感分析
流量:-
1) 音频文件-->>文本(使用语音识别API)
2) 对输出文本进行情感分析
由于有很强的Java背景,所以考虑使用StanfordCorenlp。但是,如果tensorflow或其他产品比CoreNLP有更好的好处,那么使用tensorflow或其他产品也可以
公开一个rest服务,该服务将文本(完整对话)作为情感分析的输入。使用CoreNLP进行情感分析。没有得到预期的结果。
不知道该如何根据我的需要进行
我目前正在开发一个斯坦福CoreNLP程序,该程序使用给定规则列表用指定的单词替换匹配的文本。我检查了TokensRegex表达式,我知道有一个正则表达式函数可用于操作字段:
Replace(ListCoreMap,tokensregex,replacement)匹配(String,regex,replacement)
这样做。但是,我不清楚如何在规则文件中实现此功能。我在GitHub或其他网页上找不到任何示例
以下是一个替换示例:
输入文本:约翰·史密斯是NLP实验室的成员
匹配模式:文本中的
我需要在没有任何外部网络访问的平台上运行stanza ner。代码节下载('en')失败。在没有下载功能的情况下运行,会给我一个异常
异常:在:\home\stanza\u Resources\Resources.json中找不到资源文件。再次尝试下载模型
是否有办法下载并缓存资源目录中所有必需的模块,并将该目录指向节管道
谢谢看起来下载和管道类都为directorydir
所以下面的代码是有效的
stanza.download('en',dir='resources/',processors=
上一页 1 2 3 4 5 6 ...
下一页 最后一页 共 14 页