Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/70.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Urllib返回html但没有结束段落标记_Python_Html_Python 3.x_Web Scraping_Urllib - Fatal编程技术网

Python Urllib返回html但没有结束段落标记

Python Urllib返回html但没有结束段落标记,python,html,python-3.x,web-scraping,urllib,Python,Html,Python 3.x,Web Scraping,Urllib,我正在抓取总统辩论记录。我注意到,当我的scraper提取html元素时,它从不提取段落结束标记() 乙二醇 在浏览器中检查源代码 我想有两件事发生了: urllib以某种方式删除了结束标记(仅针对段落,其余的都可以) 原始源不包括结束标记,浏览器正在填充它们 我如何找出它是哪一个,然后再更正它?你能检查Chrome收到的实际数据包吗?在某些情况下,Chrome会检测并纠正像这样的小遗漏,以便显示页面,即使它们不在数据包中。我猜Chrome解决了这个问题,而实际的数据来源是错误的。你能检查C

我正在抓取总统辩论记录。我注意到,当我的scraper提取html元素时,它从不提取段落结束标记(

乙二醇

在浏览器中检查源代码

我想有两件事发生了:

  • urllib以某种方式删除了结束标记(仅针对段落,其余的都可以)
  • 原始源不包括结束标记,浏览器正在填充它们

  • 我如何找出它是哪一个,然后再更正它?

    你能检查Chrome收到的实际数据包吗?在某些情况下,Chrome会检测并纠正像这样的小遗漏,以便显示页面,即使它们不在数据包中。我猜Chrome解决了这个问题,而实际的数据来源是错误的。

    你能检查Chrome收到的实际数据包吗?在某些情况下,Chrome会检测并纠正像这样的小遗漏,以便显示页面,即使它们不在数据包中。我猜Chrome解决了这个问题,而实际的来源是不好的。是的,打得好。当我检查原始来源时,没有关闭标记扫描haz确认答案?:P
    url_to_scrape = 'http://www.presidency.ucsb.edu/ws/index.php?pid=119039'
    req = urllib.request.Request(url_to_scrape)
    resp = urllib.request.urlopen(req)
    resp.read()