Machine learning 使用CRF识别文件的特定部分

Machine learning 使用CRF识别文件的特定部分,machine-learning,scikit-learn,named-entity-recognition,document-classification,crf,Machine Learning,Scikit Learn,Named Entity Recognition,Document Classification,Crf,我的目标是提供一组文档(主要在金融领域),我们需要确定文档的特定部分,如公司名称或文档类型等 假设培训是在100份文件的基础上进行的。显然,我会有一个倾斜的类分布(没有一个在99.9%的例子中占主导地位)。 我计划使用CRF(Sklearn上的CRFsuite)并阅读了必要的文献。我需要以下方面的建议: 数据集是否足以培训CRF?考虑到每个文档可以分为大约100个令牌(每个令牌都是一个训练实例),我们总共会得到10000个实例 对于训练CRF,数据集是否会过于倾斜?例如:对于100个文档,我

我的目标是提供一组文档(主要在金融领域),我们需要确定文档的特定部分,如公司名称或文档类型等

假设培训是在100份文件的基础上进行的。显然,我会有一个倾斜的类分布(没有一个在99.9%的例子中占主导地位)。 我计划使用CRF(Sklearn上的CRFsuite)并阅读了必要的文献。我需要以下方面的建议:

  • 数据集是否足以培训CRF?考虑到每个文档可以分为大约100个令牌(每个令牌都是一个训练实例),我们总共会得到10000个实例

    • 对于训练CRF,数据集是否会过于倾斜?例如:对于100个文档,我将有大约400个给定类的实例,大约8000个无实例
  • 没有人知道,你必须在你的数据集上尝试它,检查结果质量,可能检查CRF模型(例如,有sklearn crfsuite支持-一个无耻的插件),尝试提出更好的特性或决定注释更多的示例,等等。这只是一个一般的数据科学工作。数据集的大小看起来较低,但根据数据的结构和功能的好坏,几百个文档可能就足够开始了。由于数据集很小,您可能需要在特征工程上投入更多的时间
  • 我不认为阶级不平衡是个问题,至少它不太可能是你的主要问题