Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用ApacheSolr和tika索引文本文件_Solr_Apache Tika - Fatal编程技术网

使用ApacheSolr和tika索引文本文件

使用ApacheSolr和tika索引文本文件,solr,apache-tika,Solr,Apache Tika,我在本地机器上的d:/tmp/docs位置有一些doc文件,我想使用apachesolr和Tika对它们进行索引。下面是我的数据配置.xml文件 <dataSource type="BinFileDataSource" /> <document> <entity name="file_Import" dataSource="null" rootEntity="false" processor="FileListEntityPr

我在本地机器上的
d:/tmp/docs
位置有一些doc文件,我想使用apachesolr和Tika对它们进行索引。下面是我的
数据配置.xml
文件

<dataSource type="BinFileDataSource" />
    <document>
        <entity name="file_Import" dataSource="null" rootEntity="false"
        processor="FileListEntityProcessor"
        baseDir="D:/temp/docs" fileName=".*\.(doc)|(pdf)|(docx)"
        onError="skip"
        recursive="true">
            <field column="fileAbsolutePath" name="id" />
            <field column="fileSize" name="size" />
            <field column="fileLastModified" name="lastModified" />

            <entity
                name="documentImport"
                processor="TikaEntityProcessor"
                url="${files.fileAbsolutePath}"
                format="text">
                <field column="file" name="fileName"/>
                <field column="Author" name="author" meta="true"/>
                <field column="title" name="title" meta="true"/>
                <field column="text" name="text"/>

            </entity>
    </entity>
    </document> 

当我尝试将这些文件导入solr时,出现以下异常:

Caused by: java.net.MalformedURLException: no protocol: null
    at java.net.URL.<init>(Unknown Source)
    at java.net.URL.<init>(Unknown Source)
    at java.net.URL.<init>(Unknown Source)
    at org.apache.solr.handler.dataimport.URLDataSource.getData(URLDataSource.java:90)
... 11 more
原因:java.net.MalformedURLException:无协议:null
位于java.net.URL。(未知源)
位于java.net.URL。(未知源)
位于java.net.URL。(未知源)
位于org.apache.solr.handler.dataimport.URLDataSource.getData(URLDataSource.java:90)
... 还有11个
我发现sorl无法找到
d:/temp/docs
文件夹


不知道如何解决。感谢您的帮助。

请检查数据源baseDir的url

试着从

baseDir=“D:/temp/docs”

baseDir=“D:/temp/docs/”


并更改文件名,如
*.*
为该文件夹中的所有文档编制索引

检查datasource baseDir的url

试着从

baseDir=“D:/temp/docs”

baseDir=“D:/temp/docs/”

并更改文件名,如
*.*
,为该文件夹中的所有文档编制索引

我的data-config.xml中有多个dataSource标记,其中一个是

引起问题。。所以我删除了所有的数据源,只保留了

它成功了……:)

已解决

我的data-config.xml中有多个dataSource标记,其中一个是

引起问题。。所以我删除了所有的数据源,只保留了


它成功了……:)

是不是。。。同一个问题持续存在。。。同样的问题依然存在