Python 无法将rss解析为html

Python 无法将rss解析为html,python,beautifulsoup,html-parsing,Python,Beautifulsoup,Html Parsing,我正在尝试解析此rss: 我尝试使用BeautifulSoup,但我无法理解正在发生的事情。我得到了答案 82 0 当我使用下面的脚本时 import requests from bs4 import BeautifulSoup session = requests.session() response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss') doc = BeautifulSoup(response

我正在尝试解析此rss:

我尝试使用BeautifulSoup,但我无法理解正在发生的事情。我得到了答案

82
0
当我使用下面的脚本时

import requests
from bs4 import BeautifulSoup

session = requests.session()

response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')

doc = BeautifulSoup(response.content,'html.parser')

titles = doc.find_all('title')

print( len(titles) )

divs = doc.find_all('div')

据我所知,数据是以html格式给出的,只有一个标题标签和几个div。这是怎么回事?我使用pyquery得到了类似的结果。

在使用
BeautifulSoup
之前,您忘记了制作

添加此行-
doc=BeautifulSoup(response.text,'lxml')

这是完整的代码

import requests
from bs4 import BeautifulSoup

session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.text,'lxml')
titles = doc.find_all('title')

print(titles)

在使用
BeautifulSoup
之前,您忘记了制作

添加此行-
doc=BeautifulSoup(response.text,'lxml')

这是完整的代码

import requests
from bs4 import BeautifulSoup

session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.text,'lxml')
titles = doc.find_all('title')

print(titles)

doc
从何而来。请注意,
rss
不是
html
doc
从何而来。请注意,
rss
不是
html
…对不起,我忘了粘贴这一行。我现在有完整的剧本了。问题是它发现了很多html中不存在的标题,并且没有div。@tst我认为所有这些
title
实际上都存在,我在那里没有看到任何
div
。啊,是的,我是!我用firefox的开发者工具检查DOM树,我相信它告诉我的一切……似乎我不相信:)对不起,我忘了粘贴这行。我现在有完整的剧本了。问题是它发现了很多html中不存在的标题,并且没有div。@tst我认为所有这些
title
实际上都存在,我在那里没有看到任何
div
。啊,是的,我是!我使用firefox的开发工具检查DOM树,我相信它告诉我的一切……似乎我不相信:)