Python 有没有办法简化S3访问日志行？_Python_Amazon Web Services_Amazon S3

Python 有没有办法简化S3访问日志行？

python amazon-web-services amazon-s3

Python 有没有办法简化S3访问日志行？,python,amazon-web-services,amazon-s3,Python,Amazon Web Services,Amazon S3,问题是，日志文件太大，无法进行挖掘。（假设每天的请求量接近1亿）我想知道是否有一种方法可以简化请求行。我不需要所有的bucket字段值 eg行： 314423094967345b38a76d76d78c678b4 bucket_name [14/Nov/2010:13:53:59 +0000] 11.22.33.44 Anonymous 3E43423453A12F47 REST.GET.OBJECT s3browser/2.4.5/s3browser-portable-2-4-5.exe

问题是，日志文件太大，无法进行挖掘。（假设每天的请求量接近1亿）

我想知道是否有一种方法可以简化请求行。我不需要所有的bucket字段值

eg行：

314423094967345b38a76d76d78c678b4 bucket_name [14/Nov/2010:13:53:59 +0000] 11.22.33.44 Anonymous 3E43423453A12F47 REST.GET.OBJECT s3browser/2.4.5/s3browser-portable-2-4-5.exe "GET /s3browser/2.4.5/s3browser-portable-2-4-5.exe HTTP/1.1" 200 - 289897 289897 50 44 "http://s3browser.com/download.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.517.44 Safari/534.7" -

我找不到任何关于减少bucket格式文件数量的信息

我只需要时间、远程IP、密钥、引用、发送的字节、对象大小和用户代理

有人知道吗

还欢迎您提出关于在短时间内挖掘这些大文件的任何其他想法

谢谢。

使用ETL流程，在将所有日志用于数据挖掘之前，该流程将对其进行预处理。水壶是一个应用程序，可以用于此，也可以滚动您自己的解决方案。有很多水壶应用程序。你喜欢哪一个？我将尽快检查它。在本例中，我谈论的是：它是一个GUI，允许您构建ETL作业来处理/转换数据。