Java “如何修复”；hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“；_Java_Apache Spark_Pdf_Hdfs

Java “如何修复”；hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“；

java apache-spark pdf

Java “如何修复”；hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“；,java,apache-spark,pdf,hdfs,Java,Apache Spark,Pdf,Hdfs,你好，我从Apache Spark和从HDFS读取PDF时遇到问题我曾尝试使用二进制文件解决我的问题，但我不知道如何实现，所有示例都是用scala语言编写的。我听说ApacheTika提供了从二进制文件读取PDF的功能，但只要我不知道如何读取这个PDF文件，这个知识就没用了，现在我使用的是PDFBox SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");

你好，我从Apache Spark和从HDFS读取PDF时遇到问题

我曾尝试使用二进制文件解决我的问题，但我不知道如何实现，所有示例都是用scala语言编写的。我听说ApacheTika提供了从二进制文件读取PDF的功能，但只要我不知道如何读取这个PDF文件，这个知识就没用了，现在我使用的是PDFBox

        SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");
        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
        JavaRDD<File> pdfFiles = javaSparkContext.objectFile("hdfs://192.123.81.123:9000/atos/sample.pdf");
        JavaRDD<PDDocument> pdfDocuments = a.map(file -> PDDocument.load(file));
        JavaRDD<String> pdfText = pdfDocuments.map(document -> new PDFTextStripper().getText(document));

SparkConf SparkConf=new SparkConf（）.setAppName（“spark AI”）.setMaster（“local[*]）；
JavaSparkContext JavaSparkContext=新的JavaSparkContext（sparkConf）；
JavaRDD Pdfiles=javaSparkContext.objectFile（“hdfs://192.123.81.123:9000/atos/sample.pdf");
javarddpdfdocuments=a.map（文件->PDDocument.load（文件））；
JavaRDD pdfText=pdfDocuments.map（document->new PDFTextStripper（）.getText（document））；

实际输出为“java.io.IOException:hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“

我通过使用.binaryFile（path）方法解决了我的问题，该方法返回JavaPairdd

请包含堆栈跟踪，并澄清上面的代码是在哪一行抛出的。我认为PDFBox并不是例外。什么是

？