在网页的网格中抓取javascript数据

在网页的网格中抓取javascript数据,javascript,python,selenium,web-scraping,phantomjs,Javascript,Python,Selenium,Web Scraping,Phantomjs,我对网页抓取非常陌生,我正在从事一个项目,在这个项目中,我需要从一个加载并需要滚动的网格中抓取数据,以便获取所有值。 该网页为() 我需要网格中的所有数据-(数据包含名称、类别、子类别、风险、技术) 有谁能指导我如何解决这个问题吗。我已经研究并发现,硒与js或phantomjs可能是一个很好的解决方案,但不是真的确定。编程部分我将使用Python。您可以使用此代码从所需的网站中删除所有内容: from selenium import webdriver from selenium.webdriv

我对网页抓取非常陌生,我正在从事一个项目,在这个项目中,我需要从一个加载并需要滚动的网格中抓取数据,以便获取所有值。
该网页为()

我需要网格中的所有数据-(数据包含
名称、类别、子类别、风险、技术


有谁能指导我如何解决这个问题吗。我已经研究并发现,硒与js或phantomjs可能是一个很好的解决方案,但不是真的确定。编程部分我将使用Python。

您可以使用此代码从所需的网站中删除所有内容:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC 

driver   = webdriver.Chrome(executable_path = r'C:/Users/abhishep/Downloads/chromedriver_win32/chromedriver.exe')
driver.maximize_window()

driver.get("https://applipedia.paloaltonetworks.com/") 

wait = WebDriverWait(driver,30)

table = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'tbody#bodyScrollingTable tr')))

for tab in table:
  print(tab.text)

对使用无头浏览器是最好的选择。除此之外;根据《谢谢》中的指南,这个问题的范围太广了。我该如何在这里向下滚动?非常感谢cruisepandey。你可以分享一些关于best learning selenium或类似任务的链接吗?你可以遵循这个基本但正式的文档。我如何从只有子域的名称中获取数据。例如:在第5行中:2ch有2个子域| u2CH-base和2ch POST。像这样,我只想得到应用程序的列表subdomains@Swordsman:如果你能提出新的问题,那就太好了。所以用户会很乐意帮助你。当然。我也会这么做