Image 使用TikaEntityProcessor获取图像文件元数据并索引到Solr

Image 使用TikaEntityProcessor获取图像文件元数据并索引到Solr,image,apache,solr,indexing,metadata,Image,Apache,Solr,Indexing,Metadata,有人能建议如何获取图像文件的元数据(例如.jpg、.png、.gif等)并将这些数据索引到ApacheSolr吗 目前,我正在使用ApacheSolr4.2。在DataImport配置文件中(对我来说,我将其命名为“db import config.xml”),我尝试将TikaEntityProcessor与ImageMetadataExtractor一起使用 <entity name="tika-test" dataSource="binary" // usin

有人能建议如何获取图像文件的元数据(例如.jpg、.png、.gif等)并将这些数据索引到ApacheSolr吗

目前,我正在使用ApacheSolr4.2。在DataImport配置文件中(对我来说,我将其命名为“db import config.xml”),我尝试将TikaEntityProcessor与ImageMetadataExtractor一起使用

<entity name="tika-test"
        dataSource="binary"      // using BinURLDataSource
        processor="TikaEntityProcessor"
        onError="skip"
        rootEntity="false"
        url="${dbmw_image.url}"
        format="none"
        parser="org.apache.tika.parser.image.ImageMetadataExtractor">
        <field column="contributor" name="authors" meta="true"/>
        <field column="creator" name="authors" meta="true"/>
        <field column="data" name="creationDate" meta="true"/>
        <field column="modified" name="lastModifiedDate" meta="true"/>
 </entity>

字段“column”都来自都柏林核心元数据列表。当我在Solr上尝试数据导入时,这些字段都没有被提取出来。我需要以下问题的答案:

  • 图像文件的可用元数据字段名是什么?(即,我可以在上面Tika实体中“字段”的“列”属性中输入的值)
  • 如何索引和获取这些元数据值(通过Tika?)并将其索引到Solr?(例如,我需要哪个解析器?我应该如何设置tika实体属性等)
  • 如有任何建议,我们将不胜感激

    谢谢,你看了吗? 具体地说