如何使用python解析日志文件并输出html?

如何使用python解析日志文件并输出html?,python,regex,Python,Regex,下面是一行日志文件: 41.42.50.xxx - - [09/Oct/2012:00:00:01 +0200] "GET http://www.xxxxxx.com/solutions-ar/solutions-1466.php HTTP/1.1" 200 10 "http://www.google.com.eg/url?dfasdfeaefdf" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrom

下面是一行日志文件:

41.42.50.xxx - - [09/Oct/2012:00:00:01 +0200] "GET http://www.xxxxxx.com/solutions-ar/solutions-1466.php HTTP/1.1" 200 10 "http://www.google.com.eg/url?dfasdfeaefdf" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.79 Safari/537.4"
我想将ip地址、时间、url、google url和浏览器解析为一行, 我使用
(r'^((2[0-4]\d | 25[0-5]|[01]?\d\d?)\){3}(2[0-4]\d | 25[0-5]|[01]?\d\d?)
来匹配ip地址,如何获取其他信息并输出html? 谢谢,使用类似于Apache的库来解析Apache日志行。它将比尝试为这些行编写正则表达式更健壮、更安全。

使用类似于解析Apache日志行的库。它将比尝试为行编写正则表达式更加健壮和安全。

  • IP地址:
    r'^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}'
  • 时间:
    r'\d{2}/[a-zA-Z]{3}/\d{4}:\d{2}:\d{2}:\d{2}\+\d{4}'
  • 时间(备选):
    r'(?
    • IP地址:
      r'^\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}'
    • 时间:
      r'\d{2}/[a-zA-Z]{3}/\d{4}:\d{2}:\d{2}:\d{2}\+\d{4}'

    • 时间(可选):
      r'(?那个正则表达式真的太偏执了…
      ^(?:\d+\){3}\d+
      应该可以。谢谢,我会改进它,但是我如何解析行的其余部分的其他信息?你有其他日志行的例子吗?会有帮助,比如日期等-月份总是三个字母吗?是否还有其他内容在
      []
      ?您希望它在html中如何作为表或smth其他格式?@jdotjdot89:是的,everyline的结构是相同的,在[]内的任何时候,正则表达式都是非常偏执的…
      ^(?::\d+\){3}\d+
      应该可以。谢谢,我会改进它,但是我如何解析行的其余部分的其他信息?你有其他日志行的例子吗?会有帮助,比如日期等-月份总是三个字母吗?是否还有其他内容在
      []
      ?你希望它是html格式的-作为表格还是smth格式?@jdotjdot89:是的,everyline的结构是一样的,时间都在里面[]非常感谢~顺便说一下,我在没有google的情况下解析资源中的url,像bing、yahoo search Engine等,我想解析后面的关键字?q=或q=,我如何匹配关键字?我使用(?对于一个新问题,最好打开一个新的堆栈溢出问题。我很乐意在那里回答。完成后,请随时给我发送链接,以便我可以回答。再次感谢:)非常感谢~顺便说一句,我从没有谷歌的资源中解析url,像bing、yahoo search Engine等,我想解析后面的关键字?q=或q=,我如何匹配关键字?我使用(?对于一个新问题,最好打开一个新的堆栈溢出问题。我很乐意在那里回答。完成后,请随时给我发送链接,以便我可以回答。再次感谢:)