Text 从文件A中提取包含文件B中单词的行_Text_Bigdata_Extraction

Text 从文件A中提取包含文件B中单词的行

text

Text 从文件A中提取包含文件B中单词的行,text,bigdata,extraction,Text,Bigdata,Extraction,我有一个大的文本文件，超过1gb，包含一行一行的数据线这是文本文件A.txt 然后我有第二个文件，文本文件B.txt，其中包含30000个独特的单词我想从文本文件A以及在文本文件A中找到单词的行这方面的一个例子是： --文本文件A-- --文本文件B-- --结果文件输出-- 我该如何做才能以最快的方式工作呢？市场上有没有专门用于这类任务的软件我不懂任何编程语言，所以如果有人知道需要编写代码的解决方案，我需要新手指导如何实现它我在谷歌上搜索了好几个小时，希望能找到解决这个问题的办法，

我有一个大的文本文件，超过1gb，包含一行一行的数据线这是文本文件

A.txt

然后我有第二个文件，文本文件

B.txt

，其中包含30000个独特的单词我想从文本文件

以及在文本文件

中找到单词的行

这方面的一个例子是：

--文本文件A--

--文本文件B--

--结果文件输出--

我该如何做才能以最快的方式工作呢？市场上有没有专门用于这类任务的软件

我不懂任何编程语言，所以如果有人知道需要编写代码的解决方案，我需要新手指导如何实现它

我在谷歌上搜索了好几个小时，希望能找到解决这个问题的办法，但没有找到任何有意义的答案

提前感谢

使用Java MapReduce，您可以按如下操作：

在HDFS中加载文件A

逐行传递作为映射器的输入

将文件B共享为分布式缓存，以便所有映射者都可以访问它，而不必将其划分为块

在mapper中，检查（从文件A）接收的输入行中是否存在文件B（共享为分布式缓存）中的任何单词

如果找不到，请跳过该行

如果找到，将线路输出到减速器

从减速器写入输出文件

嗨，我是个编程新手，不懂任何语言，包括Java。要知道你刚才告诉我要做的事，会不会让一个很久都不知道你说了什么的人？谢谢

dog in house
cat at school
kid in playground
tom at oaks
so much stuff
inhouse cool stuff

house
oaks

dog in house
tom at oaks
inhouse cool stuff