如何使用python脚本从网站中抓取数据并以分层结构存储在文件夹中?

如何使用python脚本从网站中抓取数据并以分层结构存储在文件夹中?,python,html,beautifulsoup,html-parsing,Python,Html,Beautifulsoup,Html Parsing,我正在尝试使用python从网站获取数据,我已经在本地下载了文本文件,然后我想从文本文件中的锚标记获取数据,并将一个新文件夹重命名为锚标记值 在这里,我使用python创建新文件夹,但无法从txt文件和进程中获取数据 我可以创建新文件夹,但我希望重命名为锚定标记值 import os root_path = '/home' folders = ['folder 01', 'folder 02', 'folder 03'] for folder in folders: o

我正在尝试使用python从网站获取数据,我已经在本地下载了文本文件,然后我想从文本文件中的锚标记获取数据,并将一个新文件夹重命名为锚标记值

在这里,我使用python创建新文件夹,但无法从txt文件和进程中获取数据

我可以创建新文件夹,但我希望重命名为锚定标记值

import os

root_path = '/home'    
folders = ['folder 01', 'folder 02', 'folder 03']    
for folder in folders:
    os.mkdir(os.path.join(root_path, folder))

请尝试以下代码。它应该创建锚标记中存在的所有文件夹名称

from bs4 import BeautifulSoup
import requests
import os
url = 'Url Here'
html = requests.get(url).text
soup = BeautifulSoup(html, 'html.parser')
for folder in soup.find_all('a'):
    root_path = '/home'
    os.mkdir(os.path.join(root_path, folder.text))

请让我知道这是否有效。

您能提供文本文件吗?您的预期输出应该是什么?例如,您正在尝试创建哪些文件夹?听起来你需要做的就是解析文本文件我想你是说HTML??然后把你想要的标签拉到列表中。然后你可以使用这个列表作为你的文件夹变量,用于你的循环是的,这个文件是一个html文件,直到现在我已经尝试了一个文件,并提取了锚定标记,它就像一个b c d,现在我想把这个结果保存在一个数组中,这样我就可以使用上面的代码来重命名folders。你的想法是对的。您需要使用beautifulsoup来解析html,找到您要查找的标记。您很可能会使用find_all,但如果不了解实际的html是什么,并且明确如何查找这些标记,我就不知道它的容量有多大。