Parsing 半结构化文本信息检索的度量学习?

Parsing 半结构化文本信息检索的度量学习?,parsing,machine-learning,information-retrieval,information-extraction,Parsing,Machine Learning,Information Retrieval,Information Extraction,我对解析半结构化文本感兴趣。假设我有一个带有标签的文本:年份字段,年份值,身份字段,身份值,…,地址字段,地址值等等 这些字段及其关联值可以在文本中无处不在,但通常它们彼此相邻,更一般地说,文本以(非常)粗略的矩阵进行组织,但通常值紧跟在关联字段之后,并最终包含一些不感兴趣的信息 不同格式的数量最多可以达到几十个,并且没有那么严格(不要指望间距,而且可以添加和删除一些信息) 我希望机器学习技术能够提取所有感兴趣的(领域、价值) 我认为度量学习和/或条件随机场(CRF)可能会有很大帮助,但我没有使

我对解析半结构化文本感兴趣。假设我有一个带有标签的文本:
年份字段
年份值
身份字段
身份值
,…,
地址字段
地址值
等等

这些字段及其关联值可以在文本中无处不在,但通常它们彼此相邻,更一般地说,文本以(非常)粗略的矩阵进行组织,但通常值紧跟在关联字段之后,并最终包含一些不感兴趣的信息

不同格式的数量最多可以达到几十个,并且没有那么严格(不要指望间距,而且可以添加和删除一些信息)

我希望机器学习技术能够提取所有感兴趣的(领域、价值)

我认为度量学习和/或条件随机场(
CRF
)可能会有很大帮助,但我没有使用它们的实际经验

是否有人已经遇到过类似的问题


有关于这个主题的建议或文献吗?

如果我理解正确,您的任务是从文本中提取所有预定义的实体。你在这里描述的正是

斯坦福大学有一个可以下载和使用的软件包(python/java等)

关于您考虑的模型(例如CRF),这里的难点是获取训练数据,即已标记实体的句子。这就是为什么你应该考虑得到一个经过训练的模型,或者使用别人的数据来训练你的模型(再一次,模型将只识别它在训练部分中看到的实体)

对于python中已经训练好的模型,nltk是一个很好的选择


希望这能总结一下

1。这可能是一个更好的2。远至广泛和基于意见的3。外部资源的建议是离题的。请在发布前检查并确认。谢谢,的确stats.stackexchange.com是制作模特的更好地方。然而,我在这里要求的是软件部分,我承认这在我的查询中并不明显。谢谢。然而,我的问题有点不同。根据数据来源的不同,同一个词,如“数量”可能指的是不同的含义,例如许多元素或价格,以下值可能无助于区分。然而,我可以依靠大致相同的文本结构,这就是为什么我认为CRF或度量学习可以做到:“知道在“数量”之前我处于状态X,“数量”在这里意味着价格。好的,但用它(标记)数据你打算训练它吗?我已经写了一个基于词汇表的半通用解析器来提取这些对,我可以将它用于注释。但是,由于上面提到的问题,我仍然可以用regexp修补一些小错误。但是,我希望有一个更通用的方法(处理最终的新格式)因此,我可以依靠一些注释,这些注释是我可以生成的(使用不太通用的方法)。