我正在学习使用stanford解析器,并使用黄金标准注释的MiPACQ语料库对其进行训练,作为初步步骤,我正试图将其训练为PCFG解析器,正如常见问题26中所述
但是,我得到一个错误,它无法找到或加载字典化解析器的主类。我已经阅读了java源代码文件,可以找到主类。如果这个问题太琐碎,请原谅,但我不明白我的错误在哪里。我使用了适当的(PTB格式)样本培训和测试文件
我不确定我是否应该遵循特定的路径设置以使其正常工作,而且我对在命令行中使用java相当陌生,几乎一无所知。希望有人能帮忙。事实上,
是否可以使用JavaAPI在运行时选择语言模型(在官方模型中:英语、汉语、西班牙语)
我目前正在使用Gradle定义依赖项:
dependencies {
compile group: 'edu.stanford.nlp', name: 'stanford-corenlp', version: '3.5.1'
compile group: 'edu.stanford.nlp', name: 'stanford-corenlp', version: '3.5.1', classif
我想使用斯坦福NLPAPI来解析文本和提取时态表达式。核心NLP包附带了一个用于识别和规范化时间表达式的库。按照他们网站上的例子,我很容易找到我想要的表达方式
但是,有一个“包含范围”复选框,这对我非常有用。如何将此标志传递给库API?我似乎在他们的文档中找不到它。在梳理了Java NLP邮件列表档案后,我找到了解释该问题的页面。将选项传递到时间注释器的方法是添加属性,在本例中:
props.setProperty("sutime.includeRange", "true");
我希望这能帮助
我在CoreNLP中使用RegexNER注释器,我的一些命名实体由多个单词组成。摘自我的映射文件:
RAF抑制剂类药物
吉尔伯特综合征
第一个会被检测到,但每个单词都会得到注释DRUG_类,而且似乎没有办法链接这些单词,就像两个单词都会有一个NER id一样
第二种情况根本没有被检测到,这可能是因为标记化器将Gilbert后面的撇号视为单独的标记。由于RegexNER将标记化作为一个依赖项,所以我真的无法回避它
有没有解决这些问题的建议?如果您使用entityments注释器,该注释器将从具有相
我想为斯坦福依赖项解析器添加一种新的语言,但我一辈子都不知道如何添加
培训数据应采用何种格式?
如何生成新的语言文件?神经网络依赖关系解析器接收CoNLL-X格式的数据
本文对格式进行了描述:
谢谢,经过几次黑客攻击后,它开始工作了。纸很有用。
在重新训练模型之前,我们希望向斯坦福NLP或spaCy的训练集添加一些自定义实体。我们愿意为我们的定制实体添加标签,但我们希望将这些添加到现有的培训集中,以避免花费太多的时间来添加标签
我们假设NLP模型是在一个大的标记数据集上训练的,该数据集包括标记为“O”(“其他”,即不感兴趣的词)的标签以及标记为“日期”、“人员”、“组织”等的词。我们有一组自定义的组织词,但我们希望将其添加到所有其他标记数据中,在重新训练模型之前
这可能吗?我们怎样才能做到这一点?我们是否必须获得模型训练的标记数据集,以
我正在尝试使用windows命令提示符使用StanfordNLP for croatian。我已经下载了这种语言的特定模型(hr_set_models)和.pt文件
我已创建.properties文件,但收到以下消息:
线程“main”edu.stanford.nlp.io.RuntimeIOException中出现异常:加载标记器模型时出错(可能缺少模型文件)
标记器模型没有问题,文件hr_set_tagger.pt位于文件夹中
我看到model文件夹中还有一个名为hr_set.pretrai
在美元和百万等货币方面做得很好。例如:BSES已投资超过72亿美元升级和扩充基础设施。在印度,同样的情况也很糟糕:BSE在升级和扩充基础设施方面投资了7.2亿卢比。最简单的方法可能是使用基于规则的方法
下面是我放入currency-rules.txt中的一个示例规则
Rs [0-9]+ crores MONEY MISC 1
下面是我对您的示例语句运行的命令:
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -
我的文本中有以下行:
耳聋(线粒体)修饰基因2的突变
我在我的RegexNER映射文件中尝试了以下几行代码,将耳聋(线粒体)修饰语2标记为基因,但都失败了
耳聋(线粒体)修饰基因2
耳聋\(线粒体\)修饰基因2
似乎问题在于转义括号字符,因为当我从文本和映射文件中删除括号时,它匹配。在RegexNER映射文件中转义字符的正确方法是什么?标记器将括号转换为:
-LRB-和-RRB-
因此,您希望:-LRB-mitropolitan-RRB-匹配(mitropolitan)
还要注意,标记器会为每个
这句话在和上给出了不同的结果。是否存在导致差异的设置?使用最新下载的模型,我可以获得与使用相同的结果,但对于此特定语句,我的结果似乎更准确。旧版演示不再真正受支持。我们通常使用。事实上,我们可能会关闭旧的演示
这两个演示使用不同的模型。如果您想尝试匹配旧版演示的结果,您可能必须搜索版本历史,并查看旧版NER模型的版本,如3.5.1等。最终,我们认为当前模型更好,但在个别情况下,旧版模型可以执行得更好
Cruella De Vil is a fur-loving maniac in which D
我发现我可以用CoreNLP在中文句子上做7门课(智慧、日期、金钱…)。
但我只能上4节课 论汉语连动句 “斯坦福命名实体识别器”。
官方的情况就是这样 演示 网站
那么,我如何使用“斯坦福命名实体识别器”对中文句子进行7类识别呢?如果您运行以下命令:
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-chinese.properties -file example.txt -outputFo
在名词短语“更重要的因素”中,“很多”一词修饰比较副词“更多”,后者又修饰“重要”
如果我把这句话放到CoreNLP服务器中,并查看由brat呈现的增强型++依赖关系的结果图,这正是我所看到的。一个advmod关系从“多”到“多”,另一个advmod关系从“多”到“重要”
然而,当我在代码中做同样的事情时,我会得到一对SemanticGraphEdge,每个都有“重要”作为调控者,分别有“很多”和“更多”作为依赖项。按照我的解释,这意味着“很多”和“更多”都很重要
我是否误解了这些数据的含义?b
我开始使用coreNLP library 3.3.1来分析意大利语文本文档。有没有人试过使用英语以外的语言?你找到训练算法所需的模型了吗?
谢谢
Carlo目前,除了英语之外,我们只为中文打包模型(请参阅),但人们也成功地使用了我们在CoreNLP中随Stanford Parser、Stanford NER或Stanford POS Tagger分发的德语和法语模型。对于意大利语,您需要可用的注释数据来训练您自己的模型。有一些树库可用于意大利语,斯坦福语法分析器已针对意大利语进行了培训。有关意大
我需要使用斯坦福NLP工具对关于特定主题的新闻文章进行情绪分析
这样的工具只允许基于句子的情绪分析,而我想提取关于我的主题的整篇文章的情绪评估
例如,如果我的主题是苹果,我想知道一篇新闻文章对苹果的看法
仅仅计算我文章中句子的平均数是不行的。例如,我可能有一篇文章说,苹果非常擅长这个,这个和那个。由于这些原因,谷歌的产品非常糟糕。这样一篇文章将使用句子的平均分数进行中性分类,而实际上它是一篇关于苹果的非常积极的文章
另一方面,过滤我的句子,只包括那些含有“苹果会错过”一词的句子,这是非常好的。然
我正在试用StanfordNLP关系提取器,根据页面上的显示,它有4个关系可以提取:生活、定位、组织、工作
我的代码是:
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref, relation");
StanfordCoreNLP pipeline = new StanfordCoreNLP(pr
它失败了,但出现以下异常
正在从C:\work\development\workspace\stanfordnlp\sample.txt读取POS标记器模型
//tagger
MaxentTagger tagger = new MaxentTagger(args[0]);
TokenizerFactory<CoreLabel> ptbTokenizerFactory = PTBTokenizer.factory(new CoreLabelTokenFacto
我必须做一个好的基于CRF的模型。我的目标是一个广阔的领域,我的目标类总数是17。我还制作了一套很好的特性集(austin.prop),通过做大量的实验,这些特性应该对我有用。NER没有产生好的结果。我需要知道NER的限制,NER是基于训练数据大小等背景下的CRF。
我搜索了很多,但到目前为止,我无法找到制作培训数据时应该遵循的惯例。
(注意:我完全知道如何创建模型并使用它,我只需要知道是否有任何约定,每个目标类中应该存在一定比例的约定等。)
如果有人能指导我,我会感谢你。对于英语,标准的培训数
我使用Stanford NER和3类模型来识别文件中的人员、位置和组织。它可以正常工作,除非有名称用换行符分隔:
无名氏
无名氏
简·史密斯
NER工具认为这三个名字是一个大名,而不是三个名字。如果我在每个名字后面加一个逗号,它会把三个名字都取出来。我如何告诉工具使用换行符来分隔这三个名称?如果名称在同一个“句子”中以连续标记结束,则会发生这种情况。您可以做的主要事情是将系统标记化/句子在换行符上拆分,然后您将为每个名称获得一个单独的句子,这样一切都会正常工作。一般来说,如果文本的格式为每行一段
我已经阅读了这里给出的详细描述-根据.prop文件基于标记的输入文件训练模型。但是文章说-
You should make sure each line consists of solely content fields and tab characters. Spaces don't work. Extra tabs will cause problems.
我的文本语料库中有一些空格分隔的单词,这些单词都组合成一个标记,而不是单个单词。例如,“莱特州立大学”是一个单一的象征,尽管莱特、州立
我使用的斯坦福语法分析器(edu.Stanford.nlp.parser.lexparser.LexicalizedParser)没有goldPOS标记,而且是宾州风格的,工作正常
我的测试文件是:
(ROOT (S (NP (NNS People)) (VP (MD can) (VP (VB butter) (NP (PRP$ their) (NN bread)) (PP (IN with) (NP (DT a) (NN knife))))) (. .)))
People/NNS can/M
我正在尝试用StanfordNLP解析书籍长度的文本块。http请求工作得很好,但是StanfordCoreNLPServer.java中的文本长度MAX_CHAR_长度有一个不可配置的100KB限制
目前,我在将文本发送到服务器之前将其切碎,但即使我尝试在句子和段落之间分割,在这些块之间也会丢失一些有用的共同引用信息。据推测,我可以解析重叠较大的块并将它们链接在一起,但这似乎(1)不雅观,(2)需要相当多的维护
是否有更好的方法来配置服务器或请求以删除手动分块或跨分块保留信息
顺便说一句,我正
CoreNLP的路线图尚不清楚。是否处于维护模式?我很高兴看到斯坦福德NLP受到重视,但缺乏对方向的了解令人担忧。如果新的神经模型更好,我们会看到它们被包装在Java CoreNLP API中吗?CoreNLP尚未处于维护模式。我们将在今年夏天进行一些非常重要(并且破坏兼容性)的更改。除此之外,我们将转换为使用UDv2(从当前的UDv1),我们将对英语和其他语言进行标记化更改,以更好地与UD和“新”(大约从2004年开始!)Penn Treebank标记化保持一致,我们将有更一致的可用性和词向量
斯坦福NLP postagger声称在最新版本中添加了祈使动词。我已经输入了大量带有丰富而明显的命令的文本,但在输出上似乎没有标记。毕竟,必须有一个人为这个pos培训它吗 命令没有特殊的标记,它们只是标记为VB
网站上的信息指的是,我们在培训数据中添加了大量手动注释的祈使句,以便词性标记者能够正确地标记更多的祈使句,即将动词标记为VB 我检查了你添加的一些命令,没有看到任何nsubj es(句子主语)。它在某些情况下可能有用。虽然“布莱恩给我做三明治”和“布莱恩,给我做三明治”有着几乎相同的依赖
想知道是否有一种方法可以在StanfordCoreNLP中加载特定的classier。我试图解决一个问题,即默认情况下加载的三个分类器中的第三个分类器没有可靠地返回ner标记,从而导致应用程序中的不一致性。想知道加载english.all.3类对于基本命名实体标记来说已经足够好了,下面列表中其他两个类的相关性是什么
edu/stanford/nlp/models/ner/english.all.3class.distsim.crf.ser.gz
edu/stanford/nlp/models/n
我一直在与斯坦福大学的coreNLP合作,对我掌握的一些数据进行情绪分析,我正在创建一个培训模型。我知道我们可以使用以下命令创建培训模型:
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
我知道train.txt文件中的内容。你给句子打分,然后把它们放在train.txt中
我在网上找不到任何关于平均时间的绝对指标。如果有人能告诉我关于速度的统计数据,我将不胜感激
此外,这也是我正在尝试的——看看是否有可能通过单独使用文本来评估一部电影的评级,即通过总结评论中每个句子的得分。我的想法或下面的代码片段中有什么看起来愚蠢的地方吗(应该做得更好)?我有一种感觉,我可能在用这个工具做一些不适合的事情,或者我用了错误的方法
public static double getTextSentimentScore(String text){
Annotation annotatio
我遵循这个FAQ来训练我自己的分类器,我注意到性能评估输出与结果不匹配,或者至少与我期望的方式不匹配。
特别是本节
CRFClassizer以每秒13824.19个单词的速度标记了1个文档中的16119个单词。
实体P R F1 TP FP FN
MYLABEL 1.0000 0.9961 0.9980 255 0 1
总计1.0000 0.9961 0.9980 255 0 1
我希望TP是预测的标签与黄金标签匹配的所有实例,FP是预测MYLABEL但黄金标签是O的所有实例,FN是预测O但黄
我正在会见斯坦福NLP的openie注释员。但是,选项openie.resolve\u coref在我的输入文本中不起作用。
我想使用openie生成三元组,并解析共引用。我怎样才能做到这一点?
此代码是从站点Stanford复制的,我添加了以下行:
props.setProperty(“openie.resolve_coref”,“true”)
Properties=newproperties();
props.setProperty(“openie.resolve_coref”,“true”
我正试图与斯坦福大学的CoreNLP一起用西班牙语进行情绪分析
也可以使用西班牙语的情感注释器吗?
到目前为止,我更改了“西班牙语.属性”:
annotators = tokenize, ssplit, pos, parse, sentiment
tokenize.language = es
sentiment.model = edu/stanford/nlp/international/spanish
pos.model = edu/stanford/nlp/models/pos-ta
标签: Stanford Nlp
opennlptweetsnamed-entity-recognitionnamed-entity-extraction
我试图在tweet上训练我自己的模型,在我的模型中,我关心hashtags中的NEs。然而,我想不出一种方法可以让工具真正在数据中学习这些模式。以下是OpenNLP的培训记录示例:
RAW Text ► Wright State is in #DaytonOH
OpenNLP Training ► <START>Wright State<END> is in #<START>Dayton<END><START
使用管道注释器时,relation,我会为每个句子返回适当的relationantify对象。这些是二进制类型的对象,有两个实体引用和一个对应的关系类型
然而,在代码中,我也看到了eventntide对象,它们可以以大致相同的方式从句子中获得。在类machineradingproperty中,我看到关系提取和事件提取都默认为true。然而,我只看到生成的关系,而不是生成的事件
我在斯坦福的文档中找不到任何事件,描述关系注释器或如何训练自定义关系模型的页面也没有对其进行描述。没有关于活动部分的研究
我正在使用斯坦福CoreNLP进行提取。下面是我试图从中提取货币和货币符号的句子
2015年3月5日5亿欧元的克林发行0.875%
我需要提取的数据为5000000000.875欧元
NLP默认将其给出的句子作为
2015年3月5日发行**$**500000000 0.875%
所以我写了
public static readonly TokenizerFactory TokenizerFactory = PTBTokenizer.factory(new CoreLabelTokenFactor
这是一个示例文本:
去年,TAUS的创始人兼董事Jaap van der Meer写了一篇题为“未来不需要翻译人员”的煽动性博客文章,认为机器翻译的质量将不断提高,对于许多应用来说,不够完美的翻译就足够了
现在我想知道:
PERSON(Jaap van der Meer) is JOB(founder and director) of ORGANISATION (TAUS)
我从Standford OpenIE和OpenIE那里得到的是:
TAUS has founder
Jaa
出于好奇(因为我总是希望你的代码中有最新的惊人之处),CoreNLP的4.1.0版本什么时候会发布到Maven
(顺便说一句,谢谢你的出色工作。说得太多了。)CoreNLP 4.2.0现在可以在Maven上使用。即使它会出现,我认为你也不应该立即使用它,而是暂时使用稳定版本。我曾经在2018年在CoreNLP上工作过,当时3.9已经在Maven回购协议中,并且仍然使用3.8,因为它是稳定的。我想我们将尝试在Maven Central上实现4.1.1,并进行一些小的修正,然后在Maven Cent
我用的是斯坦福大学的corenlp。为了更好地理解共指集合,我需要帮助。为了这个句子
Kosgi Santosh给斯坦福大学发了一封电子邮件,但没有收到回复:“我收到了通知。”
共指集
(2,1,[1,2])->(1,2,[1,3]),即:“他”->“Kosgi Santosh”
到目前为止,我理解了“(2,1,“是第二句第一个词,”(1,2,“是第一句第二个词)的意思,但无法理解[1,2]和[1,3]的意思
你能解释一下吗。
谢谢我的研究也需要这些信息
经过一番挖掘,我发现他们得到的是:
一
我在哪里可以找到密码
我发现它是一个非常有用的工具,但是我也发现它经常离线(就像现在一样)。我想主持一个个人实例,这样我就不必处理这个问题。我们使用的可视化工具是
如果您也指的是实际的表单代码,我认为我们没有支持该代码的开源版本。不过,通过一个临时的Java web应用程序,它应该很容易复制。我们使用的可视化工具是
如果您也指的是实际的表单代码,我认为我们没有支持该代码的开源版本。不过,通过一个临时的Java web应用程序,它应该很容易复制。到目前为止,用于可视化依赖关系树的切线项目“core
我试图使用StanfordCorenlp服务器获取sutime注释,但似乎无法使用服务器上的任何属性设置参考时间
有办法做到这一点吗
例如,给定文本“我需要一张桌子,明天从下午2点到下午3点”,我需要在Python客户端中为服务器提供datetime.now()作为参考日期,以便SUTime将单词“明天”解析为正确的日期。至少在Stanford CoreNLP 3.9.1中有。将文本发送到以下URL:
[stanford_server_url]/?属性={“ner.providedDocDate
我试图检测一个句子是否有人名。我正在使用standford core NLP java库
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
props.setProperty("ner.model","edu/stanford/nlp/models/ner/chinese.misc.distsim.crf
我使用grep和awk从英语文本的“内联XML”中提取命名实体,我希望在其他人类语言中使用相同的更大工作流
我一直在尝试法语(西班牙语似乎给我带来了一个Java错误,这是另一个故事),使用java-cp stanford-corenlp-4.0.0/stanford-corenlp-4.0.0.jar:stanford-corenlp-4.0.0-models-french.jar edu.stanford.nlp.pipeline.StanfordCoreNLP-properties-Stan
我目前正在使用斯坦福NLP生物医学事件解析器,我想知道它是否可以不使用当前所需的文件系统结构。我在内存中已经有了所有的令牌和解析,不想为了通过事件解析器而将它们写入磁盘。这可能吗?长话短说,不幸的是,目前没有一种方法可以在不从磁盘加载所有内容的情况下运行它。托多
我正在使用StanfordCorenlp解析一些文本。我有多个句子。在这些句子中,我设法使用TregexPattern提取名词短语。所以我得到了一个子树,这是我的名词短语。我还设法找出了名词短语的开头
如何获得该头部在句子中的位置,甚至是标记/核心标签
更好的是,如何找到头部与句子其余部分的依赖关系
下面是一个例子:
public void doSomeTextKarate(String text){
Properties props = new Properties();
p
我目前正在寻求构建一个斯坦福NER模型,该模型能够识别不同于斯坦福模型中内置的类(人员、组织、位置等)。例如,我想构建一个NER模型,该模型将被训练为标记实体酒店、国家、所有者
这可能吗
提前谢谢 你可以为你喜欢的任何课程训练一个NER模型
有关如何执行此操作的信息,请参见:
你需要用你想要的类来标记句子
此工具有助于手动标记句子:
这里是3.9.1版。无壳模型无法加载,因为它找不到pos模型
"edu.stanford.nlp.models.pos-tagger.english-caseless-left3words-distsim.tagger"
在models jar中,我找到了这条路径
"\edu\stanford\nlp\models\pos-tagger"
然后是
"english-left3words"
而“无案例”之路正在消失。
但根据文件
从版本3.6开始,新的综合英语jar文件中包含了英语的无大小
我正在尝试使用StanfordCore NLP的词干分析器类()进行词干分析
我正试图从另一个类调用词干分析器方法(我编辑了一点),如下所示,请注意,term是一个字符串:
String stemmedterm=CoreNLPKeyPhraseStemmer.keystemming(term);
CoreNLPKeyPhraseStemmer的键组方法中的主要词干分析工作通过以下行完成:
String s1= s.stem(token.word());
但是,我的问题是,标记的类型必须是
我将斯坦福CoreNLP POS 3.3.1与HeidelTime一起用于时间分析(不幸的是,HeidelTime没有SO标签,所以我打开了一个问题并链接到这篇文章)
我专门研究阿拉伯语,在BBC的一篇阿拉伯语文章中,我注意到HeidelTime忽略了数字“6”,选择了“小时”,并理解为1小时。然后HeidelTime吐出值为PT1H的TIMEX3标记
例如,以下文本是我开始的内容:
قبل6ساعة(“6小时之前”,从右到左阅读,分别是单词顺序,即“قبل”是“之前”)
之所以写这篇文章,是因
在斯坦福大学的NER CRFClassizer中,您可以使用的类的最大数量是多少
当你上了10万个不同的班,会有什么后果吗 我对CRF不太了解,所以我可能会错,但这篇论文:
表示训练时间与课程数量呈二次曲线增长。此外,如果您正在构建一个包含100000个类的模型,那么您需要的令牌将远远超过用于生成4类NER模型的200000个令牌
我相信这将导致一个以世纪或亿万年来衡量的训练时间
我正在使用斯坦福CoreNLP对我收集的一些推文进行情绪分析。我创建了一个模拟训练模型,其中一句话的得分如下:
(0(2熊)(2(2油)(2市场)))
我的得分是0到4分,0分是非常负的,2分是中性的,4分是非常正的。
我正在测试以下两条推文:
熊市
熊市
它将第一个句子赋值为0,这是正确的,第二个句子的分数为2,这是不正确的,因为这个句子也应该是否定的。这两句话之间的唯一区别是第二句话中市场的s
我的问题是:有没有办法回避这样一个事实,即任何单词的任何变化都会导致两句话的得分不同?我认为简短的
在使用Stanford parser的TokenizerFacotry时,我确保将选项设置为“Unnotkenizable=noneDelete”,但我仍然无法获得警告,这可能是什么问题
public static List<Tree> findHeadNounPhrases(List<String> unites)
{
List<Tree> nps = new ArrayList<Tree>();
for(String sente
我试图在一组包含文本页面的卷上执行NER。我从创建管道开始。使用默认设置,在16核机器上,处理1360页的卷大约需要5分钟(并行度手动控制,不使用线程属性-这种方式要快得多)。考虑到目标是处理潜在的数千卷,这被认为太慢了。另一个实验涉及通过将NER.useSUTime和NER.applyNumericClassifiers设置为false来关闭各种NER方面。这似乎没有以任何显著的方式提高处理速度。但是,我无法关闭管道使用的令牌regexGenerator。我尝试将ner.regex设置为fal
我试着打印gs和tdl,gs保留标点,而tdl丢失标点。在使用stanford parser 3.9.1时,如何在将语法结构转换为typedDependencies的同时保留标点?似乎stanford parser很难解决这个问题,有相同问题的人可以尝试corenlp
ChineseGrammaticalStructure gs = new ChineseGrammaticalStructure(t);
Collection<TypedDependency> tdl = gs.typ
1 2 3 4 5 6 ...
下一页 最后一页 共 14 页