使用Python从URL中删除子文件
我想刮取的网页由几个文件组成: 我只想抓取突出显示的文件,即:mboxFrame 我的刮页方法使用Python从URL中删除子文件,python,web-scraping,Python,Web Scraping,我想刮取的网页由几个文件组成: 我只想抓取突出显示的文件,即:mboxFrame 我的刮页方法 import requests from bs4 import BeautifulSoup webPage = requests.get(URL, verify=False) soup = BeautifulSoup(webPage.content, "html.parser" ) 只能刮取文件mail.html。有没有办法只刮我想要的东西 如果有任何提示或提示,我将不胜感
import requests
from bs4 import BeautifulSoup
webPage = requests.get(URL, verify=False)
soup = BeautifulSoup(webPage.content, "html.parser" )
只能刮取文件mail.html。有没有办法只刮我想要的东西
如果有任何提示或提示,我将不胜感激。从服务器打开文件的方法是使用URL请求文件。 事实上,在万维网诞生之初,这是获取内容的唯一途径:内容创建者将各种文件放在服务器上,客户端将打开或下载这些文件。URI和参数的动态处理是后来的发明。这就是为什么评论者会询问你使用的URL。我们希望看到它并进行相应的修改,以帮助您了解需要更改哪些部分才能获得该特定文件。您可以省略密码,或用其他字母字符串替换密码 通常,您想要的文件位于您使用的url下,但以文件名结尾。 如果startong URL是
www.example.com/mail/
,则该文件位于www.example.com/mail/mbox.msc
请注意,任何参数都应遵循路径,因此www.example.com/mail?user=hendrra&password=hendras\u password
将变为
www.example.com/mail/mbox.msc?user=hendrra&password=hendras\u password
您可以添加实际的url/html源吗?@Sureshmani您的意思是mail.html中包含什么?不。代码中使用的实际“url”。还是htmlsource@Sureshmani你需要一个密码来登录这个网址,不幸的是我不能提供。仅供参考,这是刮不废。