Search 如何索引和搜索.doc文件

Search 如何索引和搜索.doc文件,search,indexing,ms-word,.doc,Search,Indexing,Ms Word,.doc,我有一个需要上传.doc文件的应用程序。然后,这些文件应编入索引,整个文件集应可搜索。这将在Windows服务器上运行,没有安装Word,使用IIS和SqlServer,但我不希望与SqlServer的全文索引绑定 我正在考虑使用Lucene.Net作为索引部分,并想知道从.doc文件中获取文本的最佳方法是什么。我可能可以通过读取整个流,然后使用正则表达式提取任何常规字符来提取文本,但这似乎很繁重,而且容易出错 我看到一篇关于使用iFilter的文章,听起来很有希望,但我想我应该把它放在那里,因

我有一个需要上传.doc文件的应用程序。然后,这些文件应编入索引,整个文件集应可搜索。这将在Windows服务器上运行,没有安装Word,使用IIS和SqlServer,但我不希望与SqlServer的全文索引绑定

我正在考虑使用Lucene.Net作为索引部分,并想知道从.doc文件中获取文本的最佳方法是什么。我可能可以通过读取整个流,然后使用正则表达式提取任何常规字符来提取文本,但这似乎很繁重,而且容易出错

我看到一篇关于使用iFilter的文章,听起来很有希望,但我想我应该把它放在那里,因为这不是我熟悉的东西


另外,如果有必要的话,这些.doc文件将包含邮件合并字段,并且当前没有其他替代.doc格式的选项。

也许您想签出。

在基于PHP的应用程序中,我们总是使用类似于此的外部程序:。然后我们把文本保存到数据库中。如果你在谷歌上搜索“Doc2Text”,你会发现许多不同的程序做着完全相同的事情。只需选择最适合您的解决方案。

对于不需要外部程序的解决方案,iFilter解决方案似乎是最佳选择(即使您可能将其视为外部程序)


下面是一篇简单的CodePlex文章和代码,介绍如何实现这一点:

看起来需要Apache。我们正在运行IIS。您可以单独运行它,并使用其API与之通信。