Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用ApacheSolr从pdf内容中获取日期字符串_Apache_Solr_Solr Cell - Fatal编程技术网

如何使用ApacheSolr从pdf内容中获取日期字符串

如何使用ApacheSolr从pdf内容中获取日期字符串,apache,solr,solr-cell,Apache,Solr,Solr Cell,大家好,我是apache solr的新手。我有一个包含日期信息的pdf,比如-bla-bla-bla 2012-11-23 11:11:12 bla-bla…-我想从内容中获取所有日期 我读了一些文档(http://wiki.apache.org/solr/ExtractingRequestHandler)我在/update/extract中添加了date.formats <requestHandler name="/update/extract" star

大家好,我是apache solr的新手。我有一个包含日期信息的pdf,比如-bla-bla-bla 2012-11-23 11:11:12 bla-bla…-我想从内容中获取所有日期

我读了一些文档(http://wiki.apache.org/solr/ExtractingRequestHandler)我在/update/extract中添加了date.formats

 <requestHandler name="/update/extract" 
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
  <!-- All the main content goes into "text"... if you need to return
       the extracted text or do highlighting, use a stored field. -->
  <str name="fmap.content">text</str>
  <str name="lowernames">true</str>
  <str name="uprefix">ignored_</str>

  <!-- capture link hrefs but ignore div attributes -->
  <str name="captureAttr">true</str>
  <str name="fmap.a">links</str>
  <str name="fmap.div">ignored_</str>
</lst>
<lst name="date.formats">
  <str>yyyy-MM-dd</str>
  <str>yyyy-MM-dd'T'HH:mm:ss'Z'</str>
  <str>yyyy-MM-dd'T'HH:mm:ss</str>
  <str>yyyy-MM-dd</str>
  <str>yyyy-MM-dd hh:mm:ss</str>
  <str>yyyy-MM-dd HH:mm:ss</str>
</lst>

文本
符合事实的
忽略_
符合事实的
链接
忽略_
每天
yyyy-MM-dd'HH:MM:ss'Z'
yyyy-MM-dd'HH:MM:ss
每天
yyyy MM dd hh:MM:ss
yyyy MM dd HH:MM:ss

我正在添加pdf,如下所示

卷曲“http://localhost:8983/solr/update/extract?literal.id=sql.txt&uprefix=attr_&fmap.content=attr_content&commit=true“&stream.file=“/home/example/example.pdf”

没有关于日期的事吗?内容呢

Thnks