Python Twisted简单HTTP代理contd_Python_Twisted_Twisted.web

Python Twisted简单HTTP代理contd

python

Python Twisted简单HTTP代理contd,python,twisted,twisted.web,Python,Twisted,Twisted.web,我在这个网站上找到了这个脚本： from twisted.web import proxy, http from twisted.internet import reactor import sys class MyProxy(proxy.Proxy): def dataReceived(self, data): print data return proxy.Proxy.dataReceived(self, data) class ProxyFactor

我在这个网站上找到了这个脚本：

from twisted.web import proxy, http
from twisted.internet import reactor
import sys

class MyProxy(proxy.Proxy):

    def dataReceived(self, data):
      print data 
      return proxy.Proxy.dataReceived(self, data)

class ProxyFactory(http.HTTPFactory):
  protocol=MyProxy

factory = ProxyFactory()
reactor.listenTCP(8080, factory)
reactor.run()

如您所见，这里我重写dataReceived方法来打印数据。运行时，它会将每个请求的标头打印到标准输出：

GET http://careers.stackoverflow.com/ad/i/nNxudq0-kvjnJ84-n6osrC0-12-vYY HTTP/1.1
Host: careers.stackoverflow.com
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:12.0) Gecko/20100101 Firefox/12.0
Accept: image/png,image/*;q=0.8,*/*;q=0.5
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip, deflate
Proxy-Connection: keep-alive
Referer: http://stackoverflow.com/questions/7052849/simple-http-proxy
Cookie: __utma=140029553.285085787.1331510700.1337692646.1337711538.33; __utmz=140029553.1337711538.33.19.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __qca=P0-608923218-1331510699748; usr=t=5TLQ0kWmkGJo&s=RgkodeSUGq8k; __utmc=140029553; __utmb=140029553.3.10.1337711538

是否有可能以这样的方式（或任何其他实现）覆盖它，即我可以作为字典访问接收到的数据（标题）（例如：data['Host']='xxxx'…）

我还想从这个页面获取所有URL

由于您正在获取原始数据，请测试每一行是否为标题（/^[-a-zA-Z]+：/听起来是个好的开始；还要注意表示标题结尾的双crlf），并自己将其存储到字典中。

由于您正在获取原始数据，请测试每一行是否为标题（/^[-a-zA-Z]+：/听起来是个不错的开始；还要注意表示标题结尾的双crlf），并自己将其存储到字典中。

是的，这是一种方法，但我想知道是否还有其他方法像重写方法（我是twisted新手）是的，这是一种方法，但我想知道是否还有其他方法像重写方法（我是twisted新手）