Python 有没有办法简化S3访问日志行?

Python 有没有办法简化S3访问日志行?,python,amazon-web-services,amazon-s3,Python,Amazon Web Services,Amazon S3,问题是,日志文件太大,无法进行挖掘。 (假设每天的请求量接近1亿) 我想知道是否有一种方法可以简化请求行。我不需要所有的bucket字段值 eg行: 314423094967345b38a76d76d78c678b4 bucket_name [14/Nov/2010:13:53:59 +0000] 11.22.33.44 Anonymous 3E43423453A12F47 REST.GET.OBJECT s3browser/2.4.5/s3browser-portable-2-4-5.exe

问题是,日志文件太大,无法进行挖掘。 (假设每天的请求量接近1亿)

我想知道是否有一种方法可以简化请求行。我不需要所有的bucket字段值

eg行:

314423094967345b38a76d76d78c678b4 bucket_name [14/Nov/2010:13:53:59 +0000] 11.22.33.44 Anonymous 3E43423453A12F47 REST.GET.OBJECT s3browser/2.4.5/s3browser-portable-2-4-5.exe "GET /s3browser/2.4.5/s3browser-portable-2-4-5.exe HTTP/1.1" 200 - 289897 289897 50 44 "http://s3browser.com/download.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.517.44 Safari/534.7" -
我找不到任何关于减少bucket格式文件数量的信息

我只需要时间、远程IP、密钥、引用、发送的字节、对象大小和用户代理

有人知道吗

还欢迎您提出关于在短时间内挖掘这些大文件的任何其他想法


谢谢。

使用ETL流程,在将所有日志用于数据挖掘之前,该流程将对其进行预处理。水壶是一个应用程序,可以用于此,也可以滚动您自己的解决方案。有很多水壶应用程序。你喜欢哪一个?我将尽快检查它。在本例中,我谈论的是:它是一个GUI,允许您构建ETL作业来处理/转换数据。