我想将具有相同命名实体注释的连续标记(例如,斯坦福大学,其中标记“STANFORD”和“UNIVERSITY”都有NE“ORGANIZATION”)组合成一个标记,这样我就有了带有NE“ORGANIZATION”的“STANFORD UNIVERSITY”。有没有办法用令牌regex实现这一点
所以,这确实是一个由两部分组成的问题:
1) 您将如何为具有相同NER的连续令牌序列编写模式
2) 您将如何编写将捕获的令牌组合成一个令牌的操作(基本上,执行与拆分函数相反的操作)
谢谢 您想使用实体注释
我需要从大型语料库的英语和德语文本中提取句子、标记、词性标记和引理。所以,我使用了斯坦福CoreNLP工具。它的输出是完美的。然而,问题在于时间复杂性。英语模式执行得很快,但德语模式需要很长时间来注释文本。我使用以下代码初始化模型:
// To initialize English model
propsEN = new Properties();
propsEN.setProperty("annotators", "tokenize, ssplit, pos, l
基本查询:
斯坦福解析器版本4.0.0使用NML标记。我认为这是一个有用的功能,但我并不完全理解它。因此,我希望您能提供更多信息,例如它的完整形式以及引入它的动机等。为什么它会处理“所得税提案”和“鱼缸水”呢
不同地解析器是否正确地学习了NML标记的使用
以下是可选的,请阅读它,如果你认为我是虚构的标签
以下信息只是为了证明这是一次严肃的调查。我之前关于NML标签的查询被拒绝了,因为我对NML标签含义的猜测误导了我,并且我给出了一个错误的例子!对此我很抱歉
请参阅:
在标题更改下:
引述
添加
我正在尝试配置SUTime annotator(“ner”的一部分),以使用我自己的日期/时间规则文件,而不是位于Stanford CoreNLP模型分发JAR中“models/SUTime/”中的现成规则文件。
我这样做的原因是我想稍微修改SUTime规则正在做的事情。
根据这位官员的说法,只需以逗号分隔的文件路径形式指定“sutime.rules”属性。
但在我这么做之后,CoreNLP似乎仍然使用开箱即用的规则文件:
Reading TokensRegex rules from edu
我正在使用CoreNLP的crfclassizer训练一个chunker,我想减小生成的模型文件的大小。我原以为我可以使用featureCountThreshold属性来设置不常见功能的阈值,并以这种方式减少文件大小,但我尝试了几个阈值,并且文件大小始终相同,因此要么我做错了什么,要么我误解了featureCountThreshold属性
这就是我如何实例化CRFClassizer:
val props = new Properties()
props.setProperty("macro",
我有一个问题,关于CoreNLP如何在累积句子总分的过程中为短语分配括号。主要问题是它计算句子中短语情感的顺序。有人知道使用什么算法吗?一个例子可以清楚地说明我的问题:
在我的训练模型中,我使用的量表是0-4,其中0是负的,2是中性的,4是正的,所以下面的短语被评分:(3(1低)(2(2油)(2生产)))
-注:上升至正面的原因是我们预测油价,而较低的石油产量将导致较高的价格,因此正确预测油价上涨需要整体积极情绪
接下来,让我们假设以下推文被抓获:“欧佩克决定降低石油产量”。我想CoreNLP做
我已经成功地将tokensregex用于基于规则的命名实体识别,但希望通过添加地名录作为附加层来提高准确性
我的数据实际上不是在一个文件中,而是在一个看起来像:
{“中国”=[“上海”、“北京”、“贡佐”…]、“英国”=[“伦敦”、“曼彻斯特”、“爱丁堡”…]}其中关键是国家名称,而价值是相应的城市
我可以使用这种格式,即地图,还是需要一个带有位置名称和位置标签的tsv文件
如何将地名索引注释与tokensregex一起使用
另外,既然托克斯规则每次只看一个标记,我如何匹配地名录中的多标记词,如
使用以下工具培训新模型时:
java -mx1g edu.stanford.nlp.tagger.maxent.MaxentTagger -props myPropertiesFile.prop
假设myPropertiesFile.prop中指定的模型已经存在。新模型是从头开始训练还是从现有参数开始训练?我能控制在这种情况下做什么吗
一些背景:
我想首先在一个非常大的、标记不太准确的数据语料库上训练标记者,然后在一个更小的准确数据语料库上继续训练,这就是所谓的“热启动”它将从头开始构建一个新
我需要在敏感数据上运行NER,我想知道,如果在我的devbox上使用Stanford.NLP.NER Nuget包,文本将发送到我的公司网之外的服务,或者数据是否在我的机器上本地处理
谢谢,
罗杰我不熟悉Microsoft NuGet或您正在使用的特定软件,但一般来说,您完全可以在本地计算机上严格运行Stanford NER。您可以运行管道,这将在本地机器上启动一个Java进程,并使用本地机器上的资源。您还可以启动一个完全封装在本地机器上的服务器,并且再次只使用本地机器上的资源
如果有人通过Nu
我想使用Stanford Core NLP套件使用依赖项解析器解析以下示例:
Call a yellow cab for James on Piccadilly Street in 5 minutes
我已使用以下语法解析了此句子:
从https://stanfordnlp.github.io/CoreNLP/(因此,我在计算机上脱机、本地运行):
(所以我在提供的网站上在线运行):
在线生成的结果正确,而另一个结果不正确
考虑到在线版本与2016年相同,而下载版本自2020年以来,有
我以编程的方式训练了stanford NER,但没有得到模型文件NER-model.ser.gz
但是,当我直接使用crf进行分类时,它就起作用了。在crf.train()之后需要这行代码
我也有同样的问题。你发现哪里出了问题吗?我在文档中找不到任何线索。在你的道具文件中,我可以看到你想序列化到某个文件,然后按程序给它起了另一个名字。。。为什么呢?
String prop = "austen.prop";
Properties props = StringUtils.propFileToProp
我正在利用斯坦福大学的Deepdive项目,对公众对特定车辆的大量投诉进行注释。我的项目是使用问题描述,教Deepdive学习如何根据句子中的单词对问题进行分类。例如,如果客户表示“安全气囊出现故障”,那么deepdive应该能够判断这是一个安全问题,并且他们正在谈论汽车的一部分。所以我想做的是更新斯坦福大学的CoreNLP命名实体识别(NER)列表,开始查找类似的单词,并给它们贴上诸如“汽车安全问题”之类的标签。有谁能深入解释一下如何添加一个新的注释器,以便CoreNLP能够根据汽车零件和一般
我正在制作一个web应用程序(GUI),用于构建CRF NER模型,而不是手动创建CSV文件。当用户收集大量培训文件时,他应该能够生成一个新模型并进行尝试。
我遇到的问题是重新加载模型。当我给管道赋值时,比如
pipeline = new StanfordCoreNLP(props)
模型保持不变。我尝试使用清除注释池
StanfordCoreNLP.clearAnnotatorPool()
但一切都没有改变。这是可能的,还是我每次都必须重新启动整个应用程序才能让它正常工作
编辑(澄清):
斯坦福NLP是否为DocumentPreprocessor提供了一种训练方法来训练自己的语料库并创建自己的句子分割模型
我正在处理德语句子,我需要为句子分割任务创建自己的德语模型。因此,我需要训练分句器,DocumentPreprocessor
有什么方法可以做到吗?没有。目前,所有欧洲语言的标记化都是由一个(手写的)有限自动机完成的。基于机器学习的标记化用于汉语和阿拉伯语。目前,所有语言的句子分割都是根据规则进行的,利用标记器的决策。(当然,这只是现在的情况,而不是必然的情况。)
目前,我们没
我正在使用CoreNLP的命名实体识别注释器
我的问题是,我不想将相对日期识别为实体。
我的目标是将日期与事件联系起来
一些有趣的日期是1997年2月18日,7月20日,1992年,从今天算起4天,星期一是13日
在这个例子中,我想强调“1997年2月18日”、“7月20日”和“1992年”。
即使其中一些日期不完整,它们仍然可以用于搜索事件
另一方面,“从今天开始的4天”和“13号星期一”对我来说并不有趣:原因是第一个日期与当前日期(或文本编写日期)有关,而第二个日期过于笼统
有没有一种简单的
作为http服务器运行当前版本的斯坦福CoreNLP 3.9.1(更新于2018/04/05)
使用每个不同语言下载附带的默认.properties:
法语输出缺少“之前”和“之后”节点
"tokens": [
{
"index": 1,
"word": "Je",
"originalText": "Je",
"characterOffsetBegin": 0,
"charact
我正在尝试为StanfordNLP中的关系提取器功能训练我自己的模型,如下所述:。问题是,当我开始培训时,我会遇到以下例外情况:
PERCENTAGE OF TRAIN: 1.0
The reader log level is set to SEVERE
Adding annotator pos
Reading POS tagger model from edu/stanford/nlp/models/pos-tagger/english-left3words/english-left3word
如果您运行:
java-mx3g-cp“*”edu.stanford.nlp.pipeline.StanfordCoreNLPServer-props StanfordCoreNLP-spanish.properties
java-mx3g-cp“*”edu.stanford.nlp.pipeline.StanfordCoreNLP-props StanfordCoreNLP-spanish.properties
第二个命令打开终端,西班牙语解析器工作正常,但在服务器版本中,它使用英语解析器,而
我看到SUTime中有一个选项可以解决对未来的模糊时间引用,但我不知道如何告诉NER注释器这样做。例如,在注释这句话“let’s out on Friday”(假设今天是星期天)时,我希望SUTime返回下一个星期五的日期,而不是上一个星期五的日期,默认情况下会出现,因为它更接近星期天。谢谢。您必须提供自己的语法文件。您可以从corenlp复制默认值。它应该位于类似于stanford-sutime-models-1.3.5.jar:edu/stanford/nlp/models/sutime/e
我想用更多适合我的用例的数据来训练现有的斯坦福核心nlp的english-left3words-distsim.bin模型。我想为某些单词分配自定义标记,例如run将是命令
在哪里可以获得培训数据集?我可以按照《华尔街日报》宾夕法尼亚州树状银行的第0-18节来做
链接:
我们有一些额外的数据集,我们不分发,我们添加到华尔街日报的数据
在斯坦福大学的CoreNLP分类器中,我看到的所有示例都包含了人们不想识别的单词(用O表示)。例如,以下“某些”和“之前”不确认为资产:
certain O O
Apple ASSET ASSET
products ASSET ASSET
macOS ASSET ASSET
before O O
1) 我需要像“确定”和“之前”这样提供上下文的词吗
2) 秩序重要吗?我可以,而不是命令“某些,苹果,产品,苹果操作系统,在”做“之前,某些
我下载并解压缩了它,并尝试使用默认(提供的)培训模型在本地文件上运行命名实体识别。我明白了:
`java.io.FileNotFoundException: /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters (No such file or directory) at edu.stanford.nlp.io.IOUtils.inputStreamFromFile(IOUtils.java:481)`
出了什么问题以及如何修复?事实
似乎有一个法国的标签,但我没有找到任何柠檬酒
谢谢大家! 据我所知,斯坦福NLP没有法国柠檬加工厂。你可以看一看
我目前正在对中国微博文本进行分类,其中一个步骤是提取文本中包含的地理位置。我遵循斯坦福NLP网站中描述的步骤,即首先使用中文分词器对中文文本进行分词,然后在分词文本上应用中文NER模型
然而,我已经看到了许多错误的否定,其中文本确实包含地理位置,但NER软件无法识别它们。下面列出了一些示例(斜体是手动标记的地理位置)
【开展防汛排查】6.月29日,紫阳县红椿镇强降雨引发了山体滑坡和泥石流,为避免发生不安全事故,红椿派出所与交警中队民警冒雨开展重点路段巡查,疏导交通,排查险情。目前,共排查险情3.
我们正试图从文件中提取欧元价值。斯坦福正在按预期确认这笔钱。然而,在提取期间,它正在将欧元转换为美元
以下是运行Stanford CoreNLP并关闭货币标准化的示例命令:
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit -file sample-sentence.txt -outputFormat text -tokenize.options "normalizeCurrency
我正在尝试运行以下代码:
但是,我找不到这三种必需的导入:
import edu.stanford.nlp.coref.CorefCoreAnnotations;
import edu.stanford.nlp.coref.data.CorefChain;
import edu.stanford.nlp.coref.data.Mention;
我可以使用这些导入:
import edu.stanford.nlp.dcoref.CorefCoreAnnotations;
import edu.s
我想用新数据训练中国人的Segenter,我制作了一个字典和一个序列化的树库文本文件
我的问题是,我不理解或找不到关于以下两者之间差异的文件:
-视像仪数据
及
-trainFile train.txt
有人能帮我解决这个问题吗。我的中文数据集是佛教古籍,因此很难取代像《观世音》这样的资源
祝你一切顺利
Andreas这里有培训您自己的中文分词员的文档:
sighanCorporaDict是一个包含分段器所需资源的目录…应将其设置为分段器分发中的数据目录
trainFile应该是一个句子列表,这
我用这个包装器对法语句子进行标记化
我还根据、和此处的自述设置了属性。但是,“tokenize.options”中设置的属性无效。这是为标记器设置属性的方法吗
守则:
nlp = StanfordCoreNLP(r'../libraries/stanford-corenlp-full-2018-10-05', lang='fr')`
props = {'annotators': 'tokenize',
'pipelineLanguage': 'fr',
我在一个大型语料库上运行了coreNLP,并通过调用edu.stanford.nlp.simple.Document对象的jsonMinified()以JSON格式存储了注释
是否有方法从包含文档JSON表示的字符串开始创建simple.Document
如何创建自己的jar文件,其中包含自己的NER模型作为斯坦福NER中的默认模型?最简单的方法是将经过培训的模型添加到jar文件中
以下是用于将文件添加到jar文件的链接:
如果您想创建一个jar文件,比如my custom models.jar,下面是有关创建jar文件的信息:
然后将该jar文件放在类路径中
如果要在启动时加载自定义模型,只需使用ner.model属性指定即可
从命令行:
-ner.model /path/to/my_model-1.ser.gz,/path/to/my_m
我看到了几篇关于为其他语言培训斯坦福大学的帖子
例如:
然而,斯坦福CRF分类器使用了一些语言相关的特征(例如:部分Speechs标记)
我们真的可以使用相同的Jar文件训练非英语模型吗?
训练NER分类器与语言无关。您必须提供高质量的培训数据并创建有意义的功能。关键是,并非所有特性对每种语言都同样有用。例如,大写是英语中命名实体的一个很好的指标。但在德语中,所有名词都大写,这使得这一特征不那么有用
在Stanford NER中,您可以决定分类器必须使用哪些功能,因此您可以禁用POS标记(事实上
我已经从当前版本3.9.2下载了斯坦福CoreNLP
下载了西班牙语JAR
把它放在应用程序根文件夹中
启动服务器时使用:
C:\Stanford>java-mx4g-cp“*”
edu.stanford.nlp.pipeline.StanfordCoreNLPServer-端口9000-超时
15000
装载
输入文本“Sí,sabes que ya llevo un rato mirándote”,选择“西班牙语”并提交
在控制台读数中有许多警告,如:
[pool-1-thread-1]警
我想对一个给定的单词进行多次柠檬化,并提供不同的词组
例如,“met”的引理是“meet”(词组:动词),而“meeting”的引理是“meeting”(词组:名词)
但是如果“meeting”是一个动词,那么引理就是“meeting”。然后我想用一个给定的动词POS来修饰“meeting”,以期找到类似之处
这可能吗
使用最新的Java CoreNLP 3.9.2尝试中的方法字符串引理(字符串单词,字符串标记)
Morphology morphology = new Morphology();
我正在使用斯坦福NLP对西班牙语文本进行词性标注。我可以为每个单词得到一个POS标签,但我注意到我只得到了Ancora标签的前四个部分,它缺少person、number和gender的最后三个部分
为什么斯坦福NLP只使用Ancora标签的简化版本
是否可以使用Stanford NLP获取整个标签
这是我的代码(请原谅jruby…):
我将此作为输出:
[Text=No CharacterOffsetBegin=0 CharacterOffsetEnd=2 PartOfSpeech=rn
引
我制作了一个小样本训练模型,用于使用coreNLP执行情绪分析。为了让coreNLP使用此模型,我编写了以下几行代码:
props = new Properties();
props.put("sample_model-0023-100.00.ser.gz", "/home/usr/Documents/coreNLP/");
props.put("annotators", "tokenize, ssplit, parse, lemma, sentiment");
pipeline = new
我正在使用下面的设置
entitySubclassification sbieo
我有一个语料库标签(3个标签),如下所示
1. operating expense
2. monthly expense bill
3. expense
operating B-attribute
expense E-attribute
monthly B-attribute
expense I-attribute
bill E-attribute
expense
斯坦福核心NLP说3.9.0版是可用的,但我在Maven Central上还看不到 3.9.0仍处于测试阶段,但我们正在努力尽快将其安装到Maven Central上。希望下周早些时候
更新:斯坦福Corenlp3.9.1现在在Maven Central上发布
我们正在使用斯坦福NER为法语报纸文本训练我们自己的(CRF)分类器。
我们在标点符号方面遇到了问题,特别是斯坦福大学的研究人员似乎用其他标点符号取代了一些标点符号
下面是一个示例,其中“aujourd'hui”中的替换为`,将«和»括在圣母玛利亚圣母院中的替换为`
输入原始文本:
" Aujourd'hui ... « Ave Maria » et ..."
word | tag | begin-offset | end-offset
Aujourd | O | 31
有没有一种方法可以使用spacy从解析器中获取折叠的依赖项?我指的是斯坦福大学对CSD的定义,即
在折叠表示法中,涉及介词的依赖项,
连词,以及有关亲属关系所指对象的信息
子句被折叠以获得内容词之间的直接依赖关系
谢谢在Spacy的github页面上有关于这个问题的讨论。目前的API似乎没有提供这一点
您可能可以将选区解析器与依赖项解析一起使用,并编写规则来获取折叠的依赖项。Spacy的github页面对此问题进行了详细讨论。目前的API似乎没有提供这一点
您可能可以将选区分析器与依赖项分析器一
我被englishPCFG模型和Penn treebank注释的目的弄糊涂了,Standford Parser的包只包括所有类型的模型,它总是问我,如果我们已经有了Peen treebank的注释,这个模型是如何工作的。简单地说,什么是Peen树库Anotation对解析器有效?模型是如何产生的?如果原始文本用于解析器,它是否需要查询树库以再次预测树
我正在阅读一些材料,但仍然不知道在下面的步骤中模型是什么时候生成的。
1、选择一个可用的树库。
2、选择适合树库注释的解析器引擎。
3、选择培训和
我找到了与Stanford Core NLP兼容的德语解析和pos标记模型。然而,我无法让德国柠檬化工作。有办法吗?对不起,据我所知,斯坦福CoreNLP没有德语柠檬化的实现。因为3.6版也支持德语。
在下检查它,即使是最新版本的CoreNLP 4.0.0也不支持德语的柠檬化。请参阅以供参考。您的意思是“无法使德语柠檬化工作”?您介意更改已接受的答案吗?但它不支持柠檬化(尚未)。分句器对德语来说也很不可靠。
我正在用CoreNLP解析60000多个句子,以获得依赖关系
因为我只需要折叠的依赖项,所以其他依赖项类型(basic和折叠的cc-processed)对于我自己的使用是多余的,并且很难构建我自己的代码,这些代码将xml输出作为输入
我只能得到折叠的依赖项吗?
如果有,请告诉我
谢谢。目前没有办法做到这一点。计算附加表示只需很少的计算,因此它们总是被报告。但是,应该在XML输出中特别标记它们;希望在下游代码中过滤正确的表示并不困难。谢谢您的回答
我只是使用Standford Core NLP运行一个“hello world”,从文本中获取命名实体。但有些地方没有得到正确的识别,如“Ixhuatlancillo”或“Veracruz”,这两个必须标记为LUG(地点)的城市都被标记为ORG。
我想扩展西班牙语模型或字典,添加墨西哥的地名(城市),并添加人名。我该怎么做
提前感谢。最快、最简单的方法是使用regexner注释器。您可以使用它手动构建字典
下面是一个示例规则格式(由制表符分隔,第一列可以是任意数量的单词)
系统管理员职务杂项2
我有一系列相当大的文本文件,我希望在每个文件中解析一个特定名词短语的引用,例如“哈利波特”
我不想为每一个参考解决方案的可能性全面运行管道,因为这将花费太长的时间
非常感谢
这是我到目前为止所拥有的
import edu.stanford.nlp.io.*;
import edu.stanford.nlp.pipeline.*;
import java.io.*;
import java.util.Properties;
public class Main {
public static
我一直在使用StanfordCorenlp,我发现用以下代码构建依赖项解析树
String text = "Are depparse and parse equivalent properties for building dependency parse tree?"
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, parse, lemma, ner");
Stanf
我从Java代码中使用了斯坦福NLP文本分类器(ColumnDataClassifier)。我有两个主要问题
1-)如何打印更详细的评估信息,如混淆矩阵
2-)我的代码已经完成了预处理并提取术语的数字特征(向量),例如二进制特征或TF-IDF值。如何使用这些特性来训练和测试分类器
我问了一个相关的问题ColumnDataClassifier没有在混淆矩阵中输出度量的选项。但是,如果查看中的代码,您可以看到TP、FP、TN、FN输出到stdin的位置。这个地方有你需要的原始值。它可以用于一个方法,
您能帮助我如何使用Stanford NLP编辑.tagger文件吗?我这里有问题,我无法打开和编辑文件来定义新语言的语法规则以生成词性?该.tagger文件是基于最大熵的序列标记器使用的序列化统计模型。您无法以任何有意义的方式编辑它们
如果要为新语言创建词性标记,则必须创建训练数据,该数据由所需语言中的大量句子组成,并且句子中的每个单词都有正确的词性标记,然后训练新的词性标记模型。这里有非常详细的文档:
我已经训练了一个自定义分类器来理解金融领域中的命名实体。我想生成如下链接所示的自定义培训数据
我可以手工标记自定义关系,但我想先用自定义命名实体生成数据格式,如conll
我也用以下方法尝试了解析器,但这不会生成像链接中提到的Roth和Yih的数据那样的关系训练数据
java-mx150m-cp“stanford-parser-full-2013-06-20/*:”edu.stanford.nlp.parser.lexparser.LexicalizedParser-outputFormat“
我有英文文本,里面有“.NET”这个词。使用标准的英语标记器,这将标记为两个标记“.”和“NET”
由于.NET是一个有效的字/令牌,这在令牌化模型中是一个问题吗?作为比较,Python NLTK正确地标记了这一点:
>>> nltk.word_tokenize('The .NET CLR is cool.')
['The', '.NET', 'CLR', 'is', 'cool', '.']
其次,考虑到CoreNLP中标记化的当前状态,最好的解决方法是什么?我最初的想法
可能是他在为总理职位讨价还价,而他肯定不适合担任总理职位。
在上面提到的句子中,斯坦福语法分析器将单词的词性称为NN,这意味着这个单词在这里是一个名词,但是根据上面句子中使用的单词,它应该是一个动词
有人能澄清一下吗。你是对的,在你上面的句子中,这个词是一个动词。斯坦福POS标记器基于双向方法计算标记。一个单词的词性标签是根据它出现的上下文计算出来的,这意味着前面的两个单词和后面的两个单词都会被考虑。在此基础上,算法输出最有可能正确的标签。标记器不声称输出正确。更可能的是,讨价还价是这个句子中的
上一页 1 2 3 4 5 6 7 8 9 ...
下一页 最后一页 共 14 页