Parsing 半结构化文本信息检索的度量学习？_Parsing_Machine Learning_Information Retrieval_Information Extraction

Parsing 半结构化文本信息检索的度量学习？

parsing machine-learning

Parsing 半结构化文本信息检索的度量学习？,parsing,machine-learning,information-retrieval,information-extraction,Parsing,Machine Learning,Information Retrieval,Information Extraction,我对解析半结构化文本感兴趣。假设我有一个带有标签的文本：年份字段，年份值，身份字段，身份值，…，地址字段，地址值等等这些字段及其关联值可以在文本中无处不在，但通常它们彼此相邻，更一般地说，文本以（非常）粗略的矩阵进行组织，但通常值紧跟在关联字段之后，并最终包含一些不感兴趣的信息不同格式的数量最多可以达到几十个，并且没有那么严格（不要指望间距，而且可以添加和删除一些信息）我希望机器学习技术能够提取所有感兴趣的（领域、价值）我认为度量学习和/或条件随机场（CRF）可能会有很大帮助，但我没有使

我对解析半结构化文本感兴趣。假设我有一个带有标签的文本：

年份字段

，

年份值

，

身份字段

，

身份值

，…，

地址字段

，

地址值

等等

这些字段及其关联值可以在文本中无处不在，但通常它们彼此相邻，更一般地说，文本以（非常）粗略的矩阵进行组织，但通常值紧跟在关联字段之后，并最终包含一些不感兴趣的信息

不同格式的数量最多可以达到几十个，并且没有那么严格（不要指望间距，而且可以添加和删除一些信息）

我希望机器学习技术能够提取所有感兴趣的（领域、价值）

我认为度量学习和/或条件随机场（

CRF

）可能会有很大帮助，但我没有使用它们的实际经验

是否有人已经遇到过类似的问题

有关于这个主题的建议或文献吗？

如果我理解正确，您的任务是从文本中提取所有预定义的实体。你在这里描述的正是

斯坦福大学有一个可以下载和使用的软件包（python/java等）

关于您考虑的模型（例如CRF），这里的难点是获取训练数据，即已标记实体的句子。这就是为什么你应该考虑得到一个经过训练的模型，或者使用别人的数据来训练你的模型（再一次，模型将只识别它在训练部分中看到的实体）

对于python中已经训练好的模型，nltk是一个很好的选择

希望这能总结一下

1。这可能是一个更好的2。远至广泛和基于意见的3。外部资源的建议是离题的。请在发布前检查并确认。谢谢，的确stats.stackexchange.com是制作模特的更好地方。然而，我在这里要求的是软件部分，我承认这在我的查询中并不明显。谢谢。然而，我的问题有点不同。根据数据来源的不同，同一个词，如“数量”可能指的是不同的含义，例如许多元素或价格，以下值可能无助于区分。然而，我可以依靠大致相同的文本结构，这就是为什么我认为CRF或度量学习可以做到：“知道在“数量”之前我处于状态X，“数量”在这里意味着价格。好的，但用它（标记）数据你打算训练它吗？我已经写了一个基于词汇表的半通用解析器来提取这些对，我可以将它用于注释。但是，由于上面提到的问题，我仍然可以用regexp修补一些小错误。但是，我希望有一个更通用的方法（处理最终的新格式）因此，我可以依靠一些注释，这些注释是我可以生成的（使用不太通用的方法）。