Python 无法将rss解析为html
我正在尝试解析此rss: 我尝试使用BeautifulSoup,但我无法理解正在发生的事情。我得到了答案Python 无法将rss解析为html,python,beautifulsoup,html-parsing,Python,Beautifulsoup,Html Parsing,我正在尝试解析此rss: 我尝试使用BeautifulSoup,但我无法理解正在发生的事情。我得到了答案 82 0 当我使用下面的脚本时 import requests from bs4 import BeautifulSoup session = requests.session() response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss') doc = BeautifulSoup(response
82
0
当我使用下面的脚本时
import requests
from bs4 import BeautifulSoup
session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.content,'html.parser')
titles = doc.find_all('title')
print( len(titles) )
divs = doc.find_all('div')
据我所知,数据是以html格式给出的,只有一个标题标签和几个div。这是怎么回事?我使用pyquery得到了类似的结果。在使用
BeautifulSoup
之前,您忘记了制作汤
添加此行-doc=BeautifulSoup(response.text,'lxml')
这是完整的代码
import requests
from bs4 import BeautifulSoup
session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.text,'lxml')
titles = doc.find_all('title')
print(titles)
在使用BeautifulSoup
之前,您忘记了制作汤
添加此行-doc=BeautifulSoup(response.text,'lxml')
这是完整的代码
import requests
from bs4 import BeautifulSoup
session = requests.session()
response = session.get('https://www.mathjobs.org/jobs?joblist-0-----rss')
doc = BeautifulSoup(response.text,'lxml')
titles = doc.find_all('title')
print(titles)
doc
从何而来。请注意,rss
不是html
。doc
从何而来。请注意,rss
不是html
…对不起,我忘了粘贴这一行。我现在有完整的剧本了。问题是它发现了很多html中不存在的标题,并且没有div。@tst我认为所有这些title
实际上都存在,我在那里没有看到任何div
。啊,是的,我是!我用firefox的开发者工具检查DOM树,我相信它告诉我的一切……似乎我不相信:)对不起,我忘了粘贴这行。我现在有完整的剧本了。问题是它发现了很多html中不存在的标题,并且没有div。@tst我认为所有这些title
实际上都存在,我在那里没有看到任何div
。啊,是的,我是!我使用firefox的开发工具检查DOM树,我相信它告诉我的一切……似乎我不相信:)