Machine learning 无句子界限训练CRF

Machine learning 无句子界限训练CRF,machine-learning,crf,crfsuite,python-crfsuite,Machine Learning,Crf,Crfsuite,Python Crfsuite,我需要标记HTML文档中的部分文本。但是,它主要由日期、公司名称、地址等形式的文本组成。我计划使用CRF(sklearn crfsuite) 我的问题是很难将数据集划分成句子。我们能训练一个没有句子边界的CRF模型吗?把所有的东西都当作一个单一的序列?CRFSuite或sklearn CRFSuite中的教程没有讨论这一点 如果没有句子分割就无法完成,那么有没有关于如何将这些文本分成句子的提示 数据如下:(我无法共享实际数据) 是的,你可以不把输入序列分成句子进行训练——只需对所有内容使用大序列

我需要标记HTML文档中的部分文本。但是,它主要由日期、公司名称、地址等形式的文本组成。我计划使用CRF(sklearn crfsuite)

我的问题是很难将数据集划分成句子。我们能训练一个没有句子边界的CRF模型吗?把所有的东西都当作一个单一的序列?CRFSuite或sklearn CRFSuite中的教程没有讨论这一点

如果没有句子分割就无法完成,那么有没有关于如何将这些文本分成句子的提示

数据如下:(我无法共享实际数据)

是的,你可以不把输入序列分成句子进行训练——只需对所有内容使用大序列即可。例如,它适用于HTML页面

句子中的拆分序列提供了额外的信息(硬边界),但CRF可以在没有它的情况下工作。另见: