Sharepoint 针对8000万Tiff文件的文档管理解决方案

Sharepoint 针对8000万Tiff文件的文档管理解决方案,sharepoint,documentum,Sharepoint,Documentum,需要承载8000万个tiff文件(每个文件1000 KB),其中一些文件大约有10 TB,这将是最好的文档管理解决方案。这些文件需要位于文件系统上,但需要通过文档管理系统(Sharepoint、Documentum、Filenet等)编制索引。我们已经有了CSV格式的索引,希望重用这些索引,而不是在8000万个文件中爬行并重新创建索引。我认为最好将索引传输到SQL Server之类的数据库,并将文件保存在文件系统中。然后可以在这些索引的基础上构建DMS(文件上传/访问等)。我会研究类似Hadoo

需要承载8000万个tiff文件(每个文件1000 KB),其中一些文件大约有10 TB,这将是最好的文档管理解决方案。这些文件需要位于文件系统上,但需要通过文档管理系统(Sharepoint、Documentum、Filenet等)编制索引。我们已经有了CSV格式的索引,希望重用这些索引,而不是在8000万个文件中爬行并重新创建索引。

我认为最好将索引传输到SQL Server之类的数据库,并将文件保存在文件系统中。然后可以在这些索引的基础上构建DMS(文件上传/访问等)。

我会研究类似Hadoop的东西。可以在Amazon弹性计算云(EC2)和Amazon简单存储服务(S3)]上运行Hadoop。 请看一看参考资料
《纽约时报》使用100个Amazon EC2实例和一个Hadoop应用程序在24小时内将4TB的原始图像TIFF数据(存储在S3中)处理成1100万个成品PDF,计算成本约为240美元(不包括带宽)。[14]

SharePoint 2010可以处理如此庞大的文档库,并且可以在WSS3/MOSS2007版本下通过一些仔细的规划和架构来完成


我对Documentum不是很熟悉,但在SharePoint land中,我会创建一个自定义内容类型,将您的CSV字段映射到SharePoint的字段,然后使用新类型提供一个(或多个,但可以拆分)文档库。有这么多的数据,我会认真考虑把它分解成多个站点集合和/或查看远程BLB存储API:

你是在寻找一个生产就绪的软件解决方案还是打算自己实现它?听起来更像是一个服务器故障问题。这是一个非常棒的色情收藏。这与OP的问题有什么关系?他/她不想转换文件,只想存储和访问它们。在SP 2010中,建议您将网站集内容数据库保持在200 GB左右。因此,是的,您希望将文档分离为多个网站集。每个网站集都有一个内容数据库,但内容数据库可以在网站集之间共享。此外,SP 2010文档库中允许的最大文档数为3000万。这远远超过你的需要。正如Goyuix所提到的,这确实需要对SP基础设施进行很好的规划。做得好,好处是巨大的。好处包括与SharePoint FAST Search集成等。“SP 2010文档库中允许的最大文档数为3000万。”没有最大限制;3000万是MS推荐的文档库中的最大文档数。