Text 从文件A中提取包含文件B中单词的行

Text 从文件A中提取包含文件B中单词的行,text,bigdata,extraction,Text,Bigdata,Extraction,我有一个大的文本文件,超过1gb,包含一行一行的数据 线这是文本文件A.txt 然后我有第二个文件,文本文件B.txt,其中包含30000个独特的单词 我想从文本文件A以及 在文本文件A中找到单词的行 这方面的一个例子是: --文本文件A-- --文本文件B-- --结果文件输出-- 我该如何做才能以最快的方式工作呢?市场上有没有专门用于这类任务的软件 我不懂任何编程语言,所以如果有人知道需要编写代码的解决方案,我需要新手指导如何实现它 我在谷歌上搜索了好几个小时,希望能找到解决这个问题的办法,

我有一个大的文本文件,超过1gb,包含一行一行的数据 线这是文本文件
A.txt

然后我有第二个文件,文本文件
B.txt
,其中包含30000个独特的单词 我想从文本文件
A
以及 在文本文件
A
中找到单词的行

这方面的一个例子是:

--文本文件A--

--文本文件B--

--结果文件输出--

我该如何做才能以最快的方式工作呢?市场上有没有专门用于这类任务的软件

我不懂任何编程语言,所以如果有人知道需要编写代码的解决方案,我需要新手指导如何实现它

我在谷歌上搜索了好几个小时,希望能找到解决这个问题的办法,但没有找到任何有意义的答案


提前感谢

使用Java MapReduce,您可以按如下操作:

  • 在HDFS中加载文件A
  • 逐行传递作为映射器的输入
  • 将文件B共享为分布式缓存,以便所有映射者都可以访问它,而不必将其划分为块
  • 在mapper中,检查(从文件A)接收的输入行中是否存在文件B(共享为分布式缓存)中的任何单词
  • 如果找不到,请跳过该行
  • 如果找到,将线路输出到减速器
  • 从减速器写入输出文件

  • 嗨,我是个编程新手,不懂任何语言,包括Java。要知道你刚才告诉我要做的事,会不会让一个很久都不知道你说了什么的人?谢谢
    dog in house
    cat at school
    kid in playground
    tom at oaks
    so much stuff
    inhouse cool stuff
    
    house
    oaks
    
    dog in house
    tom at oaks
    inhouse cool stuff