我想在hdfs中存储和处理pdf文件。是否可以编写一个自定义serde,用于将pdf文件加载到配置单元中? 在配置单元中使用自定义SERDE处理HDFS中的pdf文件 你想做什么样的处理?如果是文本分析,您应该通过pdftotext.nope运行.pdfs

我想在hdfs中存储和处理pdf文件。是否可以编写一个自定义serde,用于将pdf文件加载到配置单元中? 在配置单元中使用自定义SERDE处理HDFS中的pdf文件 你想做什么样的处理?如果是文本分析,您应该通过pdftotext.nope运行.pdfs,pdf,hive,apache-pig,hdfs,Pdf,Hive,Apache Pig,Hdfs,我想在hdfs中存储和处理pdf文件。是否可以编写一个自定义serde,用于将pdf文件加载到配置单元中? 在配置单元中使用自定义SERDE处理HDFS中的pdf文件 你想做什么样的处理?如果是文本分析,您应该通过pdftotext.nope运行.pdfs。想从PDF中提取一些特定信息。有没有可能编写一些自定义I/p格式、Rec阅读器和映射器来实现这一点?首先,了解如何在纯java(cf)中处理pdf。然后,编写自定义InputFormat和加载/存储函数Show您是否在配置单元中存储pdf文件

我想在hdfs中存储和处理pdf文件。是否可以编写一个自定义serde,用于将pdf文件加载到配置单元中?
  • 在配置单元中使用自定义SERDE处理HDFS中的pdf文件

  • 你想做什么样的处理?如果是文本分析,您应该通过pdftotext.nope运行.pdfs。想从PDF中提取一些特定信息。有没有可能编写一些自定义I/p格式、Rec阅读器和映射器来实现这一点?首先,了解如何在纯java(cf)中处理pdf。然后,编写自定义InputFormat和加载/存储函数Show您是否在配置单元中存储pdf文件?我的意思是什么是ddl和dml语句?