利用java标记进行数据提取

利用java标记进行数据提取,java,lucene,uima,Java,Lucene,Uima,我需要收集文本文件(非结构化数据),基于用户输入(标记),我需要在所有文件中搜索标记项。如果找到,我需要返回搜索词出现的段落 例如:spec.txt文件包含以下内容 支持蓝牙功能的ABX耳机已推出 印度市场价格为5490卢比。它们有两种颜色 黑色和红色可供选择,并配有充电电池 可通过提供的micro USB电缆进行充电 据说ABX能够提供高达10.5小时的视觉效果 完全充电后播放。它还具有一个集成麦克风 这样你就可以处理语音通话了。耳机配有数码耳机 噪音消除技术和蓝牙接收器/连接器 在上述两段中

我需要收集文本文件(非结构化数据),基于用户输入(标记),我需要在所有文件中搜索标记项。如果找到,我需要返回搜索词出现的段落

例如:spec.txt文件包含以下内容

支持蓝牙功能的ABX耳机已推出 印度市场价格为5490卢比。它们有两种颜色 黑色和红色可供选择,并配有充电电池 可通过提供的micro USB电缆进行充电

据说ABX能够提供高达10.5小时的视觉效果 完全充电后播放。它还具有一个集成麦克风 这样你就可以处理语音通话了。耳机配有数码耳机 噪音消除技术和蓝牙接收器/连接器

在上述两段中,如果用户输入标签“price”,则应返回“price=Rs 5490”,或者应返回识别术语“price”的段落

我已经检查了UIMA和lucene,但不知道怎么做,有人能帮我吗


提前感谢

谢谢您的回复。。。是的,我找到了解决方案,我正在使用solr highlighter,通过调整solr响应返回的片段大小,我们可以得到搜索词所在的段落

你试过Lucene highlighter吗?它不会返回整个段落,但会返回突出显示的内容,其中“价格”是找到的。谢谢你的答复。。。是的,我找到了解决方案,我正在使用solr highlighter,通过调整solr响应返回的片段大小,我们可以得到搜索词所在的段落