Java 斯坦福解析器-金融工具标签_Java_Nlp_Machine Learning_Finance_Stanford Nlp

Java 斯坦福解析器-金融工具标签

java nlp machine-learning stanford-nlp

Java 斯坦福解析器-金融工具标签,java,nlp,machine-learning,finance,stanford-nlp,Java,Nlp,Machine Learning,Finance,Stanford Nlp,我有一套财务文件（定期存款文件、信用卡文件）。我想自动识别和标记这些文档中的金融实体/工具例如，如果文件包含以下短语“保留在不通知的情况下偿还利息的权利”。我想识别与之相关的金融术语，并用它标记，因为这句话是“可调用的”。对于“允许提前提款”这一短语，相关的财务术语是“可计算的”，因此，如果文件中有这一短语，我想用术语“可计算”来标记它财务条款将来自。是否有可能为此目的使用斯坦福解析器？我可以使用POS标记器进行此操作吗？我可能需要对斯坦福解析器进行金融工具方面的培训，如果可能的话，我

我有一套财务文件（定期存款文件、信用卡文件）。我想自动识别和标记这些文档中的金融实体/工具

例如，如果文件包含以下短语“保留在不通知的情况下偿还利息的权利”。我想识别与之相关的金融术语，并用它标记，因为这句话是“可调用的”。对于“允许提前提款”这一短语，相关的财务术语是“可计算的”，因此，如果文件中有这一短语，我想用术语“可计算”来标记它

财务条款将来自。是否有可能为此目的使用斯坦福解析器？我可以使用POS标记器进行此操作吗？

我可能需要对斯坦福解析器进行金融工具方面的培训，如果可能的话，我如何培训斯坦福解析器来识别金融工具？

您必须解析整个句子，从中识别值。然后标记这些值并识别名词、动词等

您可以借助显示的示例输出。通过使用，您可以使用字典中的术语来解析和识别术语，这是您必须开发的

您也可以使用相同的API

希望这能对您有所帮助。

您必须解析整个句子，从中识别值。然后标记这些值并识别名词、动词等

您可以借助显示的示例输出。通过使用，您可以使用字典中的术语来解析和识别术语，这是您必须开发的

您也可以使用相同的API

希望这能对您有所帮助。

解析器或现成的词性标记器不会识别这些特定于领域的概念。然而，它们提供的自然语言分析可能是解决方案的有用构建块。或者，如果您需要识别的短语与固定短语足够接近，那么它们可能是不必要的，您应该集中精力查找固定短语并对其进行分类

虽然这些不是“命名实体”，但问题更接近命名实体识别，因为您正在识别语义短语类。您可以使用命名实体识别器（如Stanford NER）对希望查找和训练模型的短语示例进行注释，也可以编写与实例匹配的规则（使用诸如ANNIE in GATE或Stanford的TokensRegexPattern之类的东西。

解析器或词性标记器开箱即用不会识别这些特定于领域的概念。但是，它们提供的自然语言分析可能是解决方案的有用构建块。或者，如果需要识别的短语足够接近固定短语，则例如，它们可能是不必要的，您应该集中精力查找固定短语并对其进行分类

虽然这些不是“命名实体”，但问题更接近于命名实体识别，因为您正在识别语义短语类。您可以对希望查找的短语的示例进行注释，并使用命名实体识别器（如Stanford NER）训练模型，也可以编写与实例匹配的规则（使用ANNIE in GATE或Stanford的TokensRegexPattern之类的工具。

词性标记将文本文件转换为XML文件。实现词性标记和命名实体识别的简单方法是：

import java.io.IOException;
import edu.stanford.nlp.pipeline.StanfordCoreNLP;

public class POSTagging{
  public static void main(String[] args) {
    String arguments= "-annotators tokenize,ssplit,pos,lemma,ner -filelist ./filelist/filelist.txt -outputDirectory ./annotated";
    String[] commArgs=arguments.split(" ");
    try {
      StanfordCoreNLP.main(commArgs);
    } catch (IOException e) {
      e.printStackTrace();
    } catch (ClassNotFoundException e) {
      e.printStackTrace();
    }
  }
}

运行此操作后，您将拥有带注释的XML文件。您必须使用或其他等效工具解析它们。

词性标记将文本文件转换为XML文件。实现词性标记和命名实体识别的简单方法是：

import java.io.IOException;
import edu.stanford.nlp.pipeline.StanfordCoreNLP;

public class POSTagging{
  public static void main(String[] args) {
    String arguments= "-annotators tokenize,ssplit,pos,lemma,ner -filelist ./filelist/filelist.txt -outputDirectory ./annotated";
    String[] commArgs=arguments.split(" ");
    try {
      StanfordCoreNLP.main(commArgs);
    } catch (IOException e) {
      e.printStackTrace();
    } catch (ClassNotFoundException e) {
      e.printStackTrace();
    }
  }
}

一旦你运行了这个程序，你将拥有你的带注释的XML文件。你将不得不使用或类似的东西来解析它们