Machine learning 使用CRF识别文件的特定部分_Machine Learning_Scikit Learn_Named Entity Recognition_Document Classification_Crf

Machine learning 使用CRF识别文件的特定部分

machine-learning scikit-learn

Machine learning 使用CRF识别文件的特定部分,machine-learning,scikit-learn,named-entity-recognition,document-classification,crf,Machine Learning,Scikit Learn,Named Entity Recognition,Document Classification,Crf,我的目标是提供一组文档（主要在金融领域），我们需要确定文档的特定部分，如公司名称或文档类型等假设培训是在100份文件的基础上进行的。显然，我会有一个倾斜的类分布（没有一个在99.9%的例子中占主导地位）。我计划使用CRF（Sklearn上的CRFsuite）并阅读了必要的文献。我需要以下方面的建议：数据集是否足以培训CRF？考虑到每个文档可以分为大约100个令牌（每个令牌都是一个训练实例），我们总共会得到10000个实例对于训练CRF，数据集是否会过于倾斜？例如：对于100个文档，我

我的目标是提供一组文档（主要在金融领域），我们需要确定文档的特定部分，如公司名称或文档类型等

假设培训是在100份文件的基础上进行的。显然，我会有一个倾斜的类分布（没有一个在99.9%的例子中占主导地位）。我计划使用CRF（Sklearn上的CRFsuite）并阅读了必要的文献。我需要以下方面的建议：

数据集是否足以培训CRF？考虑到每个文档可以分为大约100个令牌（每个令牌都是一个训练实例），我们总共会得到10000个实例
- 对于训练CRF，数据集是否会过于倾斜？例如：对于100个文档，我将有大约400个给定类的实例，大约8000个无实例

没有人知道，你必须在你的数据集上尝试它，检查结果质量，可能检查CRF模型（例如，有sklearn crfsuite支持-一个无耻的插件），尝试提出更好的特性或决定注释更多的示例，等等。这只是一个一般的数据科学工作。数据集的大小看起来较低，但根据数据的结构和功能的好坏，几百个文档可能就足够开始了。由于数据集很小，您可能需要在特征工程上投入更多的时间

我不认为阶级不平衡是个问题，至少它不太可能是你的主要问题