Machine learning 使用CRF识别文件的特定部分
我的目标是提供一组文档(主要在金融领域),我们需要确定文档的特定部分,如公司名称或文档类型等 假设培训是在100份文件的基础上进行的。显然,我会有一个倾斜的类分布(没有一个在99.9%的例子中占主导地位)。 我计划使用CRF(Sklearn上的CRFsuite)并阅读了必要的文献。我需要以下方面的建议:Machine learning 使用CRF识别文件的特定部分,machine-learning,scikit-learn,named-entity-recognition,document-classification,crf,Machine Learning,Scikit Learn,Named Entity Recognition,Document Classification,Crf,我的目标是提供一组文档(主要在金融领域),我们需要确定文档的特定部分,如公司名称或文档类型等 假设培训是在100份文件的基础上进行的。显然,我会有一个倾斜的类分布(没有一个在99.9%的例子中占主导地位)。 我计划使用CRF(Sklearn上的CRFsuite)并阅读了必要的文献。我需要以下方面的建议: 数据集是否足以培训CRF?考虑到每个文档可以分为大约100个令牌(每个令牌都是一个训练实例),我们总共会得到10000个实例 对于训练CRF,数据集是否会过于倾斜?例如:对于100个文档,我
- 数据集是否足以培训CRF?考虑到每个文档可以分为大约100个令牌(每个令牌都是一个训练实例),我们总共会得到10000个实例
- 对于训练CRF,数据集是否会过于倾斜?例如:对于100个文档,我将有大约400个给定类的实例,大约8000个无实例