Javascript 用硒和美素素刮削一个部位_Javascript_Python_Selenium_Beautifulsoup

Javascript 用硒和美素素刮削一个部位

javascript python selenium

Javascript 用硒和美素素刮削一个部位,javascript,python,selenium,beautifulsoup,Javascript,Python,Selenium,Beautifulsoup,因此，我试图创建一个使用JS动态加载内容的站点。我的目标是构建一个快速的python脚本来加载一个站点，看看是否有某个单词，然后给我发电子邮件我对编码比较陌生，所以如果有更好的方法，我很乐意听到我目前正在使用Selenium加载页面，然后使用BeautifulSoup刮取生成的页面，这就是我遇到的问题所在。我如何让beautifulsoup来清理我在selenium中刚刚打开的站点 from __future__ import print_function from bs4 import B

因此，我试图创建一个使用JS动态加载内容的站点。我的目标是构建一个快速的python脚本来加载一个站点，看看是否有某个单词，然后给我发电子邮件

我对编码比较陌生，所以如果有更好的方法，我很乐意听到

我目前正在使用Selenium加载页面，然后使用BeautifulSoup刮取生成的页面，这就是我遇到的问题所在。我如何让beautifulsoup来清理我在selenium中刚刚打开的站点

from __future__ import print_function
from bs4 import BeautifulSoup
from selenium import webdriver
import requests
import urllib, urllib2
import time


url = 'http://www.somesite.com/'

path_to_chromedriver = '/Users/admin/Downloads/chromedriver'
browser = webdriver.Chrome(executable_path = path_to_chromedriver)

site = browser.get(url)

html = urllib.urlopen(site).read()
soup = BeautifulSoup(html, "lxml")
print(soup.prettify())

我有一个错误说

Traceback (most recent call last):
  File "probation color.py", line 16, in <module>
    html = urllib.urlopen(site).read()
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 87, in urlopen
    return opener.open(url)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 185, in open
    fullurl = unwrap(toBytes(fullurl))
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 1075, in unwrap
    url = url.strip()
AttributeError: 'NoneType' object has no attribute 'strip'

回溯（最近一次呼叫最后一次）：
文件“permission color.py”，第16行，在
html=urllib.urlopen（site.read（））
urlopen中的文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py”，第87行
返回opener.open（url）
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py”，第185行，打开
fullurl=展开（以字节为单位（fullurl））
文件“/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py”，第1075行，展开格式
url=url.strip（）
AttributeError:“非类型”对象没有属性“strip”

我真的不明白，也不明白为什么会这样。这是urllib的内部功能吗？我怎么修理它？我认为解决这个问题可以解决我的问题。

可以使用浏览器上的“page\u source”属性找到HTML。这应该起作用：

browser = webdriver.Chrome(executable_path = path_to_chromedriver)
browser.get(url)

html = browser.page_source
soup = BeautifulSoup(html, "lxml")
print(soup.prettify())

可以使用浏览器上的“page_source”属性找到HTML。这应该起作用：

browser = webdriver.Chrome(executable_path = path_to_chromedriver)
browser.get(url)

html = browser.page_source
soup = BeautifulSoup(html, "lxml")
print(soup.prettify())

谢谢正是我需要的。谢谢！正是我需要的。