Java “如何修复”;hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“;
你好,我从Apache Spark和 从HDFS读取PDF时遇到问题 我曾尝试使用二进制文件解决我的问题,但我不知道如何实现,所有示例都是用scala语言编写的。我听说ApacheTika提供了从二进制文件读取PDF的功能,但只要我不知道如何读取这个PDF文件,这个知识就没用了,现在我使用的是PDFBoxJava “如何修复”;hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“;,java,apache-spark,pdf,hdfs,Java,Apache Spark,Pdf,Hdfs,你好,我从Apache Spark和 从HDFS读取PDF时遇到问题 我曾尝试使用二进制文件解决我的问题,但我不知道如何实现,所有示例都是用scala语言编写的。我听说ApacheTika提供了从二进制文件读取PDF的功能,但只要我不知道如何读取这个PDF文件,这个知识就没用了,现在我使用的是PDFBox SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");
SparkConf sparkConf = new SparkConf().setAppName("spark-AI").setMaster("local[*]");
JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
JavaRDD<File> pdfFiles = javaSparkContext.objectFile("hdfs://192.123.81.123:9000/atos/sample.pdf");
JavaRDD<PDDocument> pdfDocuments = a.map(file -> PDDocument.load(file));
JavaRDD<String> pdfText = pdfDocuments.map(document -> new PDFTextStripper().getText(document));
SparkConf SparkConf=new SparkConf().setAppName(“spark AI”).setMaster(“local[*]);
JavaSparkContext JavaSparkContext=新的JavaSparkContext(sparkConf);
JavaRDD Pdfiles=javaSparkContext.objectFile(“hdfs://192.123.81.123:9000/atos/sample.pdf");
javarddpdfdocuments=a.map(文件->PDDocument.load(文件));
JavaRDD pdfText=pdfDocuments.map(document->new PDFTextStripper().getText(document));
实际输出为“java.io.IOException:hdfs://192.123.81.123:9000/atos/sample.pdf 不是SequenceFile“我通过使用.binaryFile(path)方法解决了我的问题,该方法返回JavaPairdd请包含堆栈跟踪,并澄清上面的代码是在哪一行抛出的。我认为PDFBox并不是例外。什么是
a
?