在Java中组合多个文件并写入新文件而不重复

在Java中组合多个文件并写入新文件而不重复,java,filereader,Java,Filereader,我有以下内容的2个文件 file1.txt stack 1 overflow 2 frequency 4 file2.txt stack 2 overflow 1 terms 5 我想合并多个这样的文件,并创建一个具有以下输出的新文件 final.txt stack 3 overflow 3 terms 5 frequency 4 注意:文件的大小非常大 有人能帮上忙吗?你可以试试。Spark基于分布式数据集的概念构建,其中包含任意Java或Python对象。从外部数据创建数据集,然后对其

我有以下内容的2个文件

file1.txt
stack 1
overflow 2
frequency 4

file2.txt
stack 2
overflow 1
terms 5
我想合并多个这样的文件,并创建一个具有以下输出的新文件

final.txt
stack 3
overflow 3
terms 5
frequency 4
注意:文件的大小非常大


有人能帮上忙吗?你可以试试。Spark基于分布式数据集的概念构建,其中包含任意Java或Python对象。从外部数据创建数据集,然后对其应用并行操作。

尝试使用
映射来保存计数。我可以这样做,但文件非常大,因此会有很多术语和计数,因此我可能会遇到一些内存问题。甚至会有2个以上的文件,具体来说是7个文件。我们有更好的选择吗?请提供步骤你已经走了这么远了?你自己做了什么努力吗?@Paul Kertscher我已经使用了@Patrick Parker提到的地图,但是由于文件非常大,我想知道还有没有其他更好的方法来做sameJava能够读取大文件。只要你不立即将整个文件加载到内存中,你就不应该遇到内存问题。我现在知道spark作业。我们需要HDFS设置来运行这些spark作业吗?如果是这样,我不能使用currentlyNo,你可以在我的github中看到我的示例。我从excel文件中读取并执行操作。