Python 3.x Python-哪一种被认为更适合刮片:硒还是含硒的beautifulsoup?
这个问题针对Win10上的Python 3.6.3、bs4和Selenium 3.8 我正在尝试用动态内容刮页面。我试图从中获取的是数字和文本(例如。据我所知,使用requests+beautifulsoup无法完成这项工作,因为动态内容将被隐藏。所以我不得不使用其他工具,比如我们的SeleniumWebDriver 那么,鉴于我将使用SeleniumWebDriver,您是否建议忽略beautifulsoup并坚持使用SeleniumWebDriver函数,例如Python 3.x Python-哪一种被认为更适合刮片:硒还是含硒的beautifulsoup?,python-3.x,selenium,selenium-webdriver,beautifulsoup,webdriver,Python 3.x,Selenium,Selenium Webdriver,Beautifulsoup,Webdriver,这个问题针对Win10上的Python 3.6.3、bs4和Selenium 3.8 我正在尝试用动态内容刮页面。我试图从中获取的是数字和文本(例如。据我所知,使用requests+beautifulsoup无法完成这项工作,因为动态内容将被隐藏。所以我不得不使用其他工具,比如我们的SeleniumWebDriver 那么,鉴于我将使用SeleniumWebDriver,您是否建议忽略beautifulsoup并坚持使用SeleniumWebDriver函数,例如 elem = driver.f
elem = driver.find_element_by_name("q"))
还是认为使用硒+美肌素是更好的做法
您对这两条路线中的哪一条能为我提供更方便的功能有何看法?Beautifulsoup
是一款功能强大的网页抓取工具。它使用urllib.requestPython库urllib.request
对于从静态页面提取数据非常强大
硒
是目前最广泛接受和最有效的Web自动化工具。Selenium支持与动态页面、内容和元素进行交互
结论
要创建一个健壮、高效的框架来抓取包含动态内容的页面,您必须在框架中集成Selenium和Beautifulsoup。通过Selenium
浏览动态元素并与之交互,通过Beautifulsoup
一个例子
这里有一个使用Selenium
和Beautifulsoup
进行
有许多优点
因此,大多数情况下,您不需要beautifulsou
尤其是xpath
和css\u选择器
非常有用。selenium可以通过xpath、css\u选择器等找到,所以大多数情况下您不需要BeautifulSoup。
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
# and
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector