Sharepoint 2010 使搜索服务器忽略sharepoint文档数据并加快爬网时间

Sharepoint 2010 使搜索服务器忽略sharepoint文档数据并加快爬网时间,sharepoint-2010,search-server-2010,Sharepoint 2010,Search Server 2010,背景: 我有一个SharePoint基金会2010安装,用来存储纸质文档的扫描图像,为我们公司的每个客户保留一个电子版本的文件夹。所有文档都存储为PDF文件 该配置包括包含Sharepoint和Search server 2010 Express服务的web服务器,以及包含内容数据和搜索爬网存储的单独数据库服务器。Sharepoint/Search框和SQL框都是VMware虚拟机,与其他生产服务器一起运行在共享主机(包括共享SAN)上 添加到sharepoint的每个文件都必须通过自定义界面添

背景:

我有一个SharePoint基金会2010安装,用来存储纸质文档的扫描图像,为我们公司的每个客户保留一个电子版本的文件夹。所有文档都存储为PDF文件

该配置包括包含Sharepoint和Search server 2010 Express服务的web服务器,以及包含内容数据和搜索爬网存储的单独数据库服务器。Sharepoint/Search框和SQL框都是VMware虚拟机,与其他生产服务器一起运行在共享主机(包括共享SAN)上

添加到sharepoint的每个文件都必须通过自定义界面添加,包括客户端信息的元数据标记(带有一组站点列的站点内容类型定义了此额外的元数据)。然后,通过设置托管属性,我们可以使用搜索服务器公开该客户端标识数据,以便对搜索Web服务执行查询,并指定CustomClientID=X的位置

我们的数据目前驻留在两个大型文档库中,公司的每个分支各一个

经过几年的运行,我们的服务器现在有大约250000个文档,我们的完全爬网(每周休息时间运行)有时会在中途崩溃,我们的增量爬网(在工作时间内每5分钟运行一次)需要7-8分钟来获取2-3个新文件

问题:

我想知道是否有一种方法可以让搜索服务器爬虫程序只拾取我们提供的元数据,而完全忽略文档内容,我认为这将使爬虫过程加快几个数量级。我相信这项功能被描述为全文搜索,但没有成功地找到任何东西来解释这是否是可以关闭的

如果没有,是否有任何人会建议的加速爬网时间的替代方案