如何使用python脚本从网站中抓取数据并以分层结构存储在文件夹中？_Python_Html_Beautifulsoup_Html Parsing

如何使用python脚本从网站中抓取数据并以分层结构存储在文件夹中？

python html

如何使用python脚本从网站中抓取数据并以分层结构存储在文件夹中？,python,html,beautifulsoup,html-parsing,Python,Html,Beautifulsoup,Html Parsing,我正在尝试使用python从网站获取数据，我已经在本地下载了文本文件，然后我想从文本文件中的锚标记获取数据，并将一个新文件夹重命名为锚标记值在这里，我使用python创建新文件夹，但无法从txt文件和进程中获取数据我可以创建新文件夹，但我希望重命名为锚定标记值 import os root_path = '/home' folders = ['folder 01', 'folder 02', 'folder 03'] for folder in folders: o

我正在尝试使用python从网站获取数据，我已经在本地下载了文本文件，然后我想从文本文件中的锚标记获取数据，并将一个新文件夹重命名为锚标记值

在这里，我使用python创建新文件夹，但无法从txt文件和进程中获取数据

我可以创建新文件夹，但我希望重命名为锚定标记值

import os

root_path = '/home'    
folders = ['folder 01', 'folder 02', 'folder 03']    
for folder in folders:
    os.mkdir(os.path.join(root_path, folder))

请尝试以下代码。它应该创建锚标记中存在的所有文件夹名称

from bs4 import BeautifulSoup
import requests
import os
url = 'Url Here'
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')
for folder in soup.find_all('a'):
    root_path = '/home'
    os.mkdir(os.path.join(root_path, folder.text))

请让我知道这是否有效。

您能提供文本文件吗？您的预期输出应该是什么？例如，您正在尝试创建哪些文件夹？听起来你需要做的就是解析文本文件我想你是说HTML？？然后把你想要的标签拉到列表中。然后你可以使用这个列表作为你的文件夹变量，用于你的循环是的，这个文件是一个html文件，直到现在我已经尝试了一个文件，并提取了锚定标记，它就像一个b c d，现在我想把这个结果保存在一个数组中，这样我就可以使用上面的代码来重命名folders。你的想法是对的。您需要使用beautifulsoup来解析html，找到您要查找的标记。您很可能会使用find_all，但如果不了解实际的html是什么，并且明确如何查找这些标记，我就不知道它的容量有多大。