Encoding lxml字符编码问题_Encoding_Beautifulsoup_Python Requests

Encoding lxml字符编码问题

encoding

Encoding lxml字符编码问题,encoding,beautifulsoup,python-requests,Encoding,Beautifulsoup,Python Requests,我正试图解析一个网页，该网页上有不可打印的字符，并用python将其写入一个文件。我正在使用Python2.7处理请求和漂亮的汤我获取包含请求的页面，并使用以下内容对其进行解析- for option in recon: data['opts'] = '/c' + option print "Getting: ", print option r = requests.post(url, data) print r.content page = b

我正试图解析一个网页，该网页上有不可打印的字符，并用python将其写入一个文件。我正在使用Python2.7处理请求和漂亮的汤

我获取包含请求的页面，并使用以下内容对其进行解析-

for option in recon:
    data['opts'] = '/c' + option
    print "Getting: ",
    print option
    r = requests.post(url, data)
    print r.content
    page = bs4.BeautifulSoup(r.content, "lxml", from_encoding='utf-8')
    print page
    tag = page.pre.contents
    print tag[0]

测试时，print r.content正确显示页面的所有未格式化内容。页面是一个.cfm，我要查找的文本位于的“pre”标记之间。在运行完bs之后，bs将一些不可打印的文本解释为“br”标记，从而使标记成为一个包含2个项目的列表，而不仅仅是预标记之间的所有文本。有没有一种方法可以只获取请求前标记之间的文本，或者对bs做一些不同的操作以使其不误解字符

我已经通读了下面的内容试图找出答案，加上请求和漂亮的汤文件，但到目前为止没有找到任何运气-

这个问题想得太多了。我只是在windows上使用certutil传输之前对数据进行base64编码，删除第一行和最后一行，然后在远端解码