Python Urllib返回html但没有结束段落标记_Python_Html_Python 3.x_Web Scraping_Urllib

Python Urllib返回html但没有结束段落标记

python html python-3.x web-scraping

Python Urllib返回html但没有结束段落标记,python,html,python-3.x,web-scraping,urllib,Python,Html,Python 3.x,Web Scraping,Urllib,我正在抓取总统辩论记录。我注意到，当我的scraper提取html元素时，它从不提取段落结束标记（）乙二醇在浏览器中检查源代码我想有两件事发生了： urllib以某种方式删除了结束标记（仅针对段落，其余的都可以）原始源不包括结束标记，浏览器正在填充它们我如何找出它是哪一个，然后再更正它？你能检查Chrome收到的实际数据包吗？在某些情况下，Chrome会检测并纠正像这样的小遗漏，以便显示页面，即使它们不在数据包中。我猜Chrome解决了这个问题，而实际的数据来源是错误的。你能检查C

我正在抓取总统辩论记录。我注意到，当我的scraper提取html元素时，它从不提取段落结束标记（

）

乙二醇

在浏览器中检查源代码

我想有两件事发生了：

urllib以某种方式删除了结束标记（仅针对段落，其余的都可以）

原始源不包括结束标记，浏览器正在填充它们

我如何找出它是哪一个，然后再更正它？

你能检查Chrome收到的实际数据包吗？在某些情况下，Chrome会检测并纠正像这样的小遗漏，以便显示页面，即使它们不在数据包中。我猜Chrome解决了这个问题，而实际的数据来源是错误的。

你能检查Chrome收到的实际数据包吗？在某些情况下，Chrome会检测并纠正像这样的小遗漏，以便显示页面，即使它们不在数据包中。我猜Chrome解决了这个问题，而实际的来源是不好的。是的，打得好。当我检查原始来源时，没有关闭标记扫描haz确认答案？：P

url_to_scrape = 'http://www.presidency.ucsb.edu/ws/index.php?pid=119039'
req = urllib.request.Request(url_to_scrape)
resp = urllib.request.urlopen(req)
resp.read()