Join 使用EMR进行数据集连接

Join 使用EMR进行数据集连接,join,hadoop,amazon-web-services,emr,Join,Hadoop,Amazon Web Services,Emr,我在AWS S3中存储了2个以制表符分隔的数据集。 我正在尝试编写一个EMR作业,它将基于一个公共键(一组字段值)连接这两个数据集。 我的当前版本填充2个列表,并逐行比较它们;输出具有公用键的行。 我一直在用python编写代码,但似乎无法理解通过stdin带来2个文件并相互比较每一行以连接这两个数据集的逻辑。 我找到的大多数文档都是Java。 我正在使用亚马逊的EMR来运行我的所有作业。 非常感谢您的帮助 谢谢你因为你已经在使用EMR了,你看过Hive了吗 您需要用python编写代码吗?最好

我在AWS S3中存储了2个以制表符分隔的数据集。 我正在尝试编写一个EMR作业,它将基于一个公共键(一组字段值)连接这两个数据集。 我的当前版本填充2个列表,并逐行比较它们;输出具有公用键的行。 我一直在用python编写代码,但似乎无法理解通过stdin带来2个文件并相互比较每一行以连接这两个数据集的逻辑。 我找到的大多数文档都是Java。 我正在使用亚马逊的EMR来运行我的所有作业。 非常感谢您的帮助


谢谢你

因为你已经在使用EMR了,你看过Hive了吗


您需要用python编写代码吗?最好是这样。我目前正在考虑将pig作为一种替代方案。我感谢您的意见。实际上,我已经通过使用PIG和执行连接解决了这个问题。就这么简单!