Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java “如何修复”;hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“;_Java_Apache Spark_Pdf_Hdfs - Fatal编程技术网

Java “如何修复”;hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“;

Java “如何修复”;hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“;,java,apache-spark,pdf,hdfs,Java,Apache Spark,Pdf,Hdfs,你好,我从Apache Spark和 从HDFS读取PDF时遇到问题 我曾尝试使用二进制文件解决我的问题,但我不知道如何实现,所有示例都是用scala语言编写的。我听说ApacheTika提供了从二进制文件读取PDF的功能,但只要我不知道如何读取这个PDF文件,这个知识就没用了,现在我使用的是PDFBox SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");

你好,我从Apache Spark和 从HDFS读取PDF时遇到问题

我曾尝试使用二进制文件解决我的问题,但我不知道如何实现,所有示例都是用scala语言编写的。我听说ApacheTika提供了从二进制文件读取PDF的功能,但只要我不知道如何读取这个PDF文件,这个知识就没用了,现在我使用的是PDFBox

        SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");
        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
        JavaRDD<File> pdfFiles = javaSparkContext.objectFile("hdfs://192.123.81.123:9000/atos/sample.pdf");
        JavaRDD<PDDocument> pdfDocuments = a.map(file -> PDDocument.load(file));
        JavaRDD<String> pdfText = pdfDocuments.map(document -> new PDFTextStripper().getText(document));
SparkConf SparkConf=new SparkConf().setAppName(“spark AI”).setMaster(“local[*]);
JavaSparkContext JavaSparkContext=新的JavaSparkContext(sparkConf);
JavaRDD Pdfiles=javaSparkContext.objectFile(“hdfs://192.123.81.123:9000/atos/sample.pdf");
javarddpdfdocuments=a.map(文件->PDDocument.load(文件));
JavaRDD pdfText=pdfDocuments.map(document->new PDFTextStripper().getText(document));

实际输出为“java.io.IOException:hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“

我通过使用.binaryFile(path)方法解决了我的问题,该方法返回JavaPairdd

请包含堆栈跟踪,并澄清上面的代码是在哪一行抛出的。我认为PDFBox并不是例外。什么是
a