Python 从quora中获取问题答案、日期和更新投票_Python_Web Scraping_Beautifulsoup

Python 从quora中获取问题答案、日期和更新投票

python web-scraping

Python 从quora中获取问题答案、日期和更新投票,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我正在尝试使用beautifulsoup从中获取答案、日期和更新投票数据-但是我无法选择class=“pagedlist\u项目”。我想从这个类开始，包括每个答案的内容，是因为有些帖子没有投票权，所以我会以不同长度的元素列表结束，以防遗漏某些内容，以及混合相同变量的顺序 items_soup = BeautifulSoup(html, "html") items_soup.find_all("div", {"class" : "pagedlist_item"}) 当我运行这段代码时，它返回一个

我正在尝试使用

beautifulsoup

从中获取答案、日期和更新投票数据-但是我无法选择

class=“pagedlist\u项目”

。我想从这个类开始，包括每个答案的内容，是因为有些帖子没有投票权，所以我会以不同长度的元素列表结束，以防遗漏某些内容，以及混合相同变量的顺序

items_soup = BeautifulSoup(html, "html")
items_soup.find_all("div", {"class" : "pagedlist_item"})

当我运行这段代码时，它返回一个空列表——所以不确定出了什么问题？然后，我想从中提取答案的文本、日期和upvote数字（即使没有，所以基本上用0替换为空）

可以拆分并获取我列出的每个元素吗？答案文本、答案日期和答案的向上投票数字-目的是创建一个数据框

请记住：这篇文章有49个答案，但如果您不向下滚动，则不会显示所有答案，我想将所有49个答案全部删除。

我可以通过以下代码获得您想要的答案：

import requests
from bs4 import BeautifulSoup

url = 'https://www.quora.com/What-is-the-brutal-truth-about-data-scientists'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')

question = soup.find('span', {'class': 'ui_qtext_rendered_qtext'})
answers = [ s.text for s in soup.find_all("div", {"class" : "pagedlist_item"}) if s.text ]

结果在

问题==“关于数据科学家的残酷真相是什么？”

和一个包含28个答案的列表。

当我运行以下命令时，没有一个空列表：

import requests
from bs4 import BeautifulSoup

html ='https://www.quora.com/What-is-the-brutal-truth-about-data-scientists'
r = requests.get(url).text
soup = BeautifulSoup(r, 'html')
soup.find_all("div", {"class" : "pagedlist_item"})

请看这个！不确定是否包含请求。

谢谢-返回文本，但也包括用户名、日期和其他元素，所有内容都作为字符串包含在每篇文章中。可以拆分并获取我列出的每个元素吗？答案文本、答案日期和答案的向上投票数字-目的是创建一个数据框。另外，这篇文章有49个答案而不是28个？你能更新你的问题以包含所有这些信息吗？