Python Can'；t提取文本并通过BeautifulSoup查找所有内容_Python_Html_Web_Beautifulsoup_Screen Scraping

Python Can'；t提取文本并通过BeautifulSoup查找所有内容

python html web

Python Can'；t提取文本并通过BeautifulSoup查找所有内容,python,html,web,beautifulsoup,screen-scraping,Python,Html,Web,Beautifulsoup,Screen Scraping,我想提取所有可用项，但我只能得到前四项，然后得到“+加” import urllib2 from bs4 import BeautifulSoup import re import requests headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} url = 'https://www.airbnb.fr/rooms

我想提取所有可用项，但我只能得到前四项，然后得到“+加”

import urllib2
from bs4 import BeautifulSoup
import re
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
url = 'https://www.airbnb.fr/rooms/8261637?s=bAMrFL5A'
req = urllib2.Request(url = url, headers = headers)
html = urllib2.urlopen(req)
bsobj = BeautifulSoup(html.read(),'lxml')
b = bsobj.findAll("div",{"class": "row amenities"})

对于b的结果，它不会返回标记内的所有列表。最后一个是“+plus”，如下所示

<span data-reactid=".mjeft4n4sg.0.0.0.0.1.8.1.0.0.$1.1.0.0">+ Plus</span></strong></a></div></div></div></div></div>]

+Plus]

这是因为在页面加载后使用reactjs填充了数据。因此，如果你通过请求下载它，你就看不到数据

相反，您必须使用、打开页面并处理所有Java脚本。然后您就可以访问您期望的所有数据了

非常感谢，我使用selenium和phantomjs解决了这个问题