Hadoop 如何使用上下文表作为架构将文本文件保存到配置单元
我有许多文本格式的项目报告(word和pdf)。这些文件包含我要提取的数据;例如引用、关键字、提及的名称 我想用Apache spark处理这些文件并将结果保存到hive, 使用dataframe的强大功能(使用上下文表作为模式)这是可能的吗Hadoop 如何使用上下文表作为架构将文本文件保存到配置单元,hadoop,apache-spark,spark-dataframe,bigdata,Hadoop,Apache Spark,Spark Dataframe,Bigdata,我有许多文本格式的项目报告(word和pdf)。这些文件包含我要提取的数据;例如引用、关键字、提及的名称 我想用Apache spark处理这些文件并将结果保存到hive, 使用dataframe的强大功能(使用上下文表作为模式)这是可能的吗 您是否可以与我分享有关如何处理这些文件的任何想法?据我所知,您需要使用解析文件并手动创建自定义模式,如前所述 让我知道这是否有帮助。干杯。您能澄清一下“作为模式的上下文表”是什么意思吗?文档的副标题(如简介、摘要、参考书目……)
您是否可以与我分享有关如何处理这些文件的任何想法?据我所知,您需要使用解析文件并手动创建自定义模式,如前所述
让我知道这是否有帮助。干杯。您能澄清一下“作为模式的上下文表”是什么意思吗?文档的副标题(如简介、摘要、参考书目……)