Python 映射一系列warc.gz文件，EMR_Python_Hadoop_Elastic Map Reduce

Python 映射一系列warc.gz文件，EMR

python hadoop

Python 映射一系列warc.gz文件，EMR,python,hadoop,elastic-map-reduce,Python,Hadoop,Elastic Map Reduce,我在AWS/EMR中运行了一个流化步骤，使用Python编写的映射器和还原器来映射一些常用爬网中的档案，以便进行情感分析我正在从较旧的通用爬网文本数据格式转换为较新的warc.gz格式，我需要知道如何为我的EMR输入指定一系列warc.gz文件例如：在旧格式中，我可以指定文本数据文件的输入范围，如下所示： s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9

我在AWS/EMR中运行了一个流化步骤，使用Python编写的映射器和还原器来映射一些常用爬网中的档案，以便进行情感分析

我正在从较旧的通用爬网文本数据格式转换为较新的warc.gz格式，我需要知道如何为我的EMR输入指定一系列warc.gz文件

例如：

在旧格式中，我可以指定文本数据文件的输入范围，如下所示：

s3://aws-publicdatasets/common-crawl/parse-output/segment/1341690165636/textData-000[0-9][0-9]

但新格式如下所示：

第一个文件：

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00000-ip-10-236-182-209.ec2.internal.warc.gz

第二个文件：

s3://aws-publicdatasets/common-crawl/crawl-data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-00001-ip-10-236-182-209.ec2.internal.warc.gz

我将如何指定映射这些warc.gz文件的范围？

我确信您可以使用以前使用的相同方法。要仅读取您将使用的两个文件，请执行以下操作：

s3://aws publicdatasets/common crawl/crawl data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz

此外，由于这些路径比前一个路径更丰富，因此您可以使用其他方法指定要处理的数据集

CC-MAIN-2016-07是CC-MAIN YYYY ww

-能够指定一组要处理的年份或周数

CC-MAIN-20160205195359是CC-MAIN yyymmddhhmmss

-您可以选择日期或时间范围。

我确信您可以使用与以前相同的方法。要仅读取您将使用的两个文件，请执行以下操作：

s3://aws publicdatasets/common crawl/crawl data/CC-MAIN-2016-07/segments/1454702039825.90/warc/CC-MAIN-20160205195359-0000[0-1]-ip-10-236-182-209.ec2.internal.warc.gz

此外，由于这些路径比前一个路径更丰富，因此您可以使用其他方法指定要处理的数据集

CC-MAIN-2016-07是CC-MAIN YYYY ww

-能够指定一组要处理的年份或周数

CC-MAIN-20160205195359是CC-MAIN yyymmddhhmmss

-您可以选择日期或时间范围。

您可以通过

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/warc.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wat.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wet.paths.gz

要通过浏览器访问，请将其附加到文件中提到的路径

commoncrawl.s3.amazonaws.com/

在您的情况下，要通过s3访问，请尝试将其附加到路径

s3://commoncrawl/

您可以通过以下方式下载2016年7月warc文件列表：

https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/warc.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wat.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/wet.paths.gz

要通过浏览器访问，请将其附加到文件中提到的路径

commoncrawl.s3.amazonaws.com/

在您的情况下，要通过s3访问，请尝试将其附加到路径

s3://commoncrawl/

你能不能用以前用过的方法？这就是我要问的-我如何指定文件范围？对于textdata文件，数字范围很简单，因为文件是编号的，但是warc.gz文件在每个文件名内编号，而不是像textdata文件那样在末尾编号。查看上面两个warc.ga示例中的00000和00001。如何指定步骤并同时运行？您能否使用以前使用的相同方法？这就是我要问的-如何指定文件范围？对于textdata文件，数字范围很简单，因为文件是编号的，但是warc.gz文件在每个文件名内编号，而不是像textdata文件那样在末尾编号。查看上面两个warc.ga示例中的00000和00001。如何指定同时运行这两个步骤？