Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/401.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在java中检测文档的确切类型_Java - Fatal编程技术网

如何在java中检测文档的确切类型

如何在java中检测文档的确切类型,java,Java,如何在java中检测文档的确切类型。实际上,我将在运行时获得大量文档,如文章、手册和指南等,我需要使用java识别它们的实际类型。文档可以是PDF、HTML、DOC、XML等。我甚至没有文档的扩展名。看,我将从db获取文档。如果是PDF,我将有扩展名,但如果是HTMLs和其他,我将没有扩展名。实际上,在仅获取内容之后,我将必须判断它是哪种类型的内容,然后我将实现我的业务逻辑……请帮助我。Apache Tika具有检测MIME类型文件的功能: 但是,它的重量相当重,因为它不仅仅用于MIME类型检

如何在java中检测文档的确切类型。实际上,我将在运行时获得大量文档,如文章、手册和指南等,我需要使用java识别它们的实际类型。文档可以是PDF、HTML、DOC、XML等。我甚至没有文档的扩展名。看,我将从db获取文档。如果是PDF,我将有扩展名,但如果是HTMLs和其他,我将没有扩展名。实际上,在仅获取内容之后,我将必须判断它是哪种类型的内容,然后我将实现我的业务逻辑……请帮助我。

Apache Tika具有检测MIME类型文件的功能:

但是,它的重量相当重,因为它不仅仅用于MIME类型检测。

试一试,它封装了以下用于识别、验证和提取技术元数据的工具:

  • 乔夫
  • 出口工具
  • 新西兰国家图书馆元数据提取器(NLNZ)
  • 文件实用程序
  • 机器人
  • 危险的
  • 文件信息
  • XML元数据

  • 为什么没有扩展/内容类型?文件是如何到达你的?看,我将从db获得文件..如果是PDF,我将有扩展名,但如果是HTMLs和其他,我将没有扩展名。实际上,在只获取内容之后,我必须判断它是哪种内容……最佳实践是捕获mime类型以及数据。你应该有两列,一列是mime类型,另一列是数据。@kirk,是的,kirk我应该这样做,但我不会在任何列中包含mime类型,事实上,在获得内容后,我必须快速猜测正确的mime类型。假设我将得到一个字符串形式的内容,如“WELCOME KIRK WOLL”。我必须检测这个文档text/html的mime类型,然后我必须在一个阴影框中打开它,并为检测到的mime类型设置一个合适的图标。我希望你能明白我的意思。