如何使用python通过css类刮取对象？_Python_Html_Css_Web Scraping_Beautifulsoup

如何使用python通过css类刮取对象？

python html css web-scraping

如何使用python通过css类刮取对象？,python,html,css,web-scraping,beautifulsoup,Python,Html,Css,Web Scraping,Beautifulsoup,我试图通过css类从一个网站上获取这个数字。下面我的代码的输出返回None url = "https://www.reddit.com/r/" + subreddit content = requests.get(url) soup = BeautifulSoup(content.text, 'html.parser') active_users = soup.find("div", {"class":"_3XFx6CfPl

我试图通过css类从一个网站上获取这个数字。下面我的代码的输出返回

None

url = "https://www.reddit.com/r/" + subreddit
content = requests.get(url)
soup = BeautifulSoup(content.text, 'html.parser')

active_users = soup.find("div", {"class":"_3XFx6CfPlg-4Usgxm0gK8R"})
print(active_users)

我试图找到的类是网站上当前活跃用户的数量。

如何使其工作？

尝试使用

汤。选择（）

。例如：

import requests, bs4, os
content = requests.get('https://getbootstrap.com/')
soup = bs4.BeautifulSoup(content.text, 'html.parser')

active_users = soup.select("div", {"class":"row"})

print(active_users)

for elem in active_users:
    print(elem)

import json
import requests


subreddit = 'python'

headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:77.0) Gecko/20100101 Firefox/77.0'}
data = requests.get('https://www.reddit.com/r/{}/about.json'.format(subreddit), headers=headers).json()

# uncomment this to print all data:
# print(json.dumps(data, indent=4))

print('Subscribers       :', data['data']['subscribers'])
print('Active user count :', data['data']['active_user_count'])

我希望有帮助

您可以使用他们的JSON api获取活动用户数、订户等

例如：

import requests, bs4, os
content = requests.get('https://getbootstrap.com/')
soup = bs4.BeautifulSoup(content.text, 'html.parser')

active_users = soup.select("div", {"class":"row"})

print(active_users)

for elem in active_users:
    print(elem)

import json
import requests


subreddit = 'python'

headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:77.0) Gecko/20100101 Firefox/77.0'}
data = requests.get('https://www.reddit.com/r/{}/about.json'.format(subreddit), headers=headers).json()

# uncomment this to print all data:
# print(json.dumps(data, indent=4))

print('Subscribers       :', data['data']['subscribers'])
print('Active user count :', data['data']['active_user_count'])

印刷品：

Subscribers       : 604566
Active user count : 2719

为什么不包括一些你正在试图抓取的HTML呢？谢谢，我用了“选择”而不是“查找”。不幸的是，这仍然不起作用。现在输出的似乎只是网站的html。哦，我明白了，我应该考虑检查一下。干杯