Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/xamarin/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Encoding lxml字符编码问题_Encoding_Beautifulsoup_Python Requests - Fatal编程技术网

Encoding lxml字符编码问题

Encoding lxml字符编码问题,encoding,beautifulsoup,python-requests,Encoding,Beautifulsoup,Python Requests,我正试图解析一个网页,该网页上有不可打印的字符,并用python将其写入一个文件。我正在使用Python2.7处理请求和漂亮的汤 我获取包含请求的页面,并使用以下内容对其进行解析- for option in recon: data['opts'] = '/c' + option print "Getting: ", print option r = requests.post(url, data) print r.content page = b

我正试图解析一个网页,该网页上有不可打印的字符,并用python将其写入一个文件。我正在使用Python2.7处理请求和漂亮的汤

我获取包含请求的页面,并使用以下内容对其进行解析-

for option in recon:
    data['opts'] = '/c' + option
    print "Getting: ",
    print option
    r = requests.post(url, data)
    print r.content
    page = bs4.BeautifulSoup(r.content, "lxml", from_encoding='utf-8')
    print page
    tag = page.pre.contents
    print tag[0]
测试时,print r.content正确显示页面的所有未格式化内容。页面是一个.cfm,我要查找的文本位于的“pre”标记之间。在运行完bs之后,bs将一些不可打印的文本解释为“br”标记,从而使标记成为一个包含2个项目的列表,而不仅仅是预标记之间的所有文本。有没有一种方法可以只获取请求前标记之间的文本,或者对bs做一些不同的操作以使其不误解字符

我已经通读了下面的内容试图找出答案,加上请求和漂亮的汤文件,但到目前为止没有找到任何运气-


这个问题想得太多了。我只是在windows上使用certutil传输之前对数据进行base64编码,删除第一行和最后一行,然后在远端解码