Web scraping Can'；t从超级链接检索文件名_Web Scraping_Beautifulsoup

Web scraping Can'；t从超级链接检索文件名

web-scraping

Web scraping Can'；t从超级链接检索文件名,web-scraping,beautifulsoup,Web Scraping,Beautifulsoup,我一直在尝试从超级链接中获取信息，我使用了BeautifulSoup，并且能够检索文件大小和文件夹数量（虽然大部分但不是每次）。但由于某些原因，我不太明白，输出不包括文件或文件夹名。我正在尝试检索主文件夹的名称，我尝试的代码如下： from bs4 import BeautifulSoup link="MEGALINK" url = f"{link}" page = urlopen(url) page=page.read() html = page.

我一直在尝试从超级链接中获取信息，我使用了BeautifulSoup，并且能够检索文件大小和文件夹数量（虽然大部分但不是每次）。但由于某些原因，我不太明白，输出不包括文件或文件夹名。我正在尝试检索主文件夹的名称，我尝试的代码如下：

from bs4 import BeautifulSoup
link="MEGALINK"
url = f"{link}"   
page = urlopen(url)
page=page.read()
html = page.decode("utf-8")
soup = BeautifulSoup(html, "html.parser")
soup

我还查找了mega.py库，但认为它没有任何用处…

由于mega.nz大量使用javascript，我将使用Selenium来清理：

from selenium import webdriver
import time

driver = webdriver.Firefox()
driver.get(MEGALINK)
time.sleep(5)

现在，该页面通过geckoDriver加载到您的浏览器Firefox中。您也可以使用Chrome/Edge。现在，您可以使用诸如

find\u element\u by\u class

或

find\u element\u by\u xpath

之类的选择器来选择元素并进行刮取。

什么是

MEGALINK

。改用Selenium。“MEGALINK”是任何mega.nz链接，我没有因为版权问题共享链接