Hadoop 如何使用上下文表作为架构将文本文件保存到配置单元

Hadoop 如何使用上下文表作为架构将文本文件保存到配置单元,hadoop,apache-spark,spark-dataframe,bigdata,Hadoop,Apache Spark,Spark Dataframe,Bigdata,我有许多文本格式的项目报告(word和pdf)。这些文件包含我要提取的数据;例如引用、关键字、提及的名称 我想用Apache spark处理这些文件并将结果保存到hive, 使用dataframe的强大功能(使用上下文表作为模式)这是可能的吗 您是否可以与我分享有关如何处理这些文件的任何想法?据我所知,您需要使用解析文件并手动创建自定义模式,如前所述 让我知道这是否有帮助。干杯。您能澄清一下“作为模式的上下文表”是什么意思吗?文档的副标题(如简介、摘要、参考书目……)

我有许多文本格式的项目报告(word和pdf)。这些文件包含我要提取的数据;例如引用、关键字、提及的名称

我想用Apache spark处理这些文件并将结果保存到hive, 使用dataframe的强大功能(使用上下文表作为模式)这是可能的吗


您是否可以与我分享有关如何处理这些文件的任何想法?

据我所知,您需要使用解析文件并手动创建自定义模式,如前所述


让我知道这是否有帮助。干杯。

您能澄清一下“作为模式的上下文表”是什么意思吗?文档的副标题(如简介、摘要、参考书目……)