在网页的网格中抓取javascript数据_Javascript_Python_Selenium_Web Scraping_Phantomjs

在网页的网格中抓取javascript数据

javascript python selenium web-scraping phantomjs

在网页的网格中抓取javascript数据,javascript,python,selenium,web-scraping,phantomjs,Javascript,Python,Selenium,Web Scraping,Phantomjs,我对网页抓取非常陌生，我正在从事一个项目，在这个项目中，我需要从一个加载并需要滚动的网格中抓取数据，以便获取所有值。该网页为（）我需要网格中的所有数据-（数据包含名称、类别、子类别、风险、技术）有谁能指导我如何解决这个问题吗。我已经研究并发现，硒与js或phantomjs可能是一个很好的解决方案，但不是真的确定。编程部分我将使用Python。您可以使用此代码从所需的网站中删除所有内容： from selenium import webdriver from selenium.webdriv

我对网页抓取非常陌生，我正在从事一个项目，在这个项目中，我需要从一个加载并需要滚动的网格中抓取数据，以便获取所有值。
该网页为（）

我需要网格中的所有数据-（数据包含

名称、类别、子类别、风险、技术

）

有谁能指导我如何解决这个问题吗。我已经研究并发现，硒与js或phantomjs可能是一个很好的解决方案，但不是真的确定。编程部分我将使用Python。

您可以使用此代码从所需的网站中删除所有内容：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC 

driver   = webdriver.Chrome(executable_path = r'C:/Users/abhishep/Downloads/chromedriver_win32/chromedriver.exe')
driver.maximize_window()

driver.get("https://applipedia.paloaltonetworks.com/") 

wait = WebDriverWait(driver,30)

table = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'tbody#bodyScrollingTable tr')))

for tab in table:
  print(tab.text)

对使用无头浏览器是最好的选择。除此之外；根据《谢谢》中的指南，这个问题的范围太广了。我该如何在这里向下滚动？非常感谢cruisepandey。你可以分享一些关于best learning selenium或类似任务的链接吗？你可以遵循这个基本但正式的文档。我如何从只有子域的名称中获取数据。例如：在第5行中：2ch有2个子域| u2CH-base和2ch POST。像这样，我只想得到应用程序的列表subdomains@Swordsman：如果你能提出新的问题，那就太好了。所以用户会很乐意帮助你。当然。我也会这么做