使用Python从URL中删除子文件_Python_Web Scraping - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/331.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Python从URL中删除子文件_Python_Web Scraping - Fatal编程技术网

使用Python从URL中删除子文件

python web-scraping

使用Python从URL中删除子文件,python,web-scraping,Python,Web Scraping,我想刮取的网页由几个文件组成：我只想抓取突出显示的文件，即：mboxFrame 我的刮页方法 import requests from bs4 import BeautifulSoup webPage = requests.get(URL, verify=False) soup = BeautifulSoup(webPage.content, "html.parser" ) 只能刮取文件mail.html。有没有办法只刮我想要的东西如果有任何提示或提示，我将不胜感

我想刮取的网页由几个文件组成：

我只想抓取突出显示的文件，即：mboxFrame
我的刮页方法

import requests from bs4 import BeautifulSoup webPage = requests.get(URL, verify=False) soup = BeautifulSoup(webPage.content, "html.parser" )
只能刮取文件mail.html。有没有办法只刮我想要的东西

如果有任何提示或提示，我将不胜感激。
从服务器打开文件的方法是使用URL请求文件。事实上，在万维网诞生之初，这是获取内容的唯一途径：内容创建者将各种文件放在服务器上，客户端将打开或下载这些文件。URI和参数的动态处理是后来的发明。这就是为什么评论者会询问你使用的URL。我们希望看到它并进行相应的修改，以帮助您了解需要更改哪些部分才能获得该特定文件。您可以省略密码，或用其他字母字符串替换密码
通常，您想要的文件位于您使用的url下，但以文件名结尾。如果startong URL是
www.example.com/mail/
，则该文件位于
www.example.com/mail/mbox.msc
请注意，任何参数都应遵循路径，因此
www.example.com/mail？user=hendrra&password=hendras\u password
将变为
www.example.com/mail/mbox.msc？user=hendrra&password=hendras\u password
您可以添加实际的url/html源吗？@Sureshmani您的意思是mail.html中包含什么？不。代码中使用的实际“url”。还是htmlsource@Sureshmani你需要一个密码来登录这个网址，不幸的是我不能提供。仅供参考，这是刮不废。

[web scraping]相关文章推荐

Web scraping 从维基百科抓取数据 web-scraping

Web scraping 从网站获取新闻的最佳方法？ web-scraping

Web scraping 多页表单（Nokogiri、Scrapy、其他？） web-scraping scrapy

Web scraping 在不接触api的情况下刮取pastebin的最佳速率？ web-scraping

Web scraping 抓取网页并查找行标题 web-scraping artificial-intelligence

Web scraping 如何获取输入的自定义查询的Googlenews链接 web-scraping nlp

Web scraping 刮屑响应403设置请求。不要过滤错误 web-scraping scrapy

Web scraping Python请求会话未启用Cookie web-scraping

Web scraping 是否有任何具体的声明，以使美丽的团队能够正确地进行刮除？ web-scraping

Web scraping 如何从重定向链接中刮取url？ web-scraping

随机文章推荐

Ag grid Ag网格外部过滤器位于angular 2中，过滤器出现，但网格未更新 ag-grid

Ag grid 以服务器分页/排序/筛选模式将数据导出到CSV ag-grid

Ag grid ag网格企业性能显示升级 ag-grid

Ag grid Ag grid初始化具有数千列的网格 ag-grid

Ag grid 如何始终在ag网格中显示水平滚动条？ ag-grid

Ag grid 如何制作零填充ag表格？ ag-grid

Ag grid Ag栅格-主详细信息复选框行选择角度示例？ ag-grid

Ag grid ag网格：清除范围选择时是否有方法触发事件 ag-grid

Ag grid 在栅格外部渲染的自定义工具面板 ag-grid

[python]相关推荐

Tags

C# 3.0 Jquery Mobile Ldap Imagemagick Ionic2 Dynamics Crm 2011 Ruby On Rails 3.2 If Statement Utf 8 Cordova Sml Regex Flutter Continuous Integration Sbt Stata Entity Framework Ruby On Rails 4 Character Encoding Vue.js Visual Studio 2015 Object Email Dictionary Doctrine Orm Laravel 5 Wso2 Gis Vector Sublimetext3 Wix Azure Ad B2c Uml Amazon Dynamodb Artificial Intelligence Sqlalchemy Gstreamer Monitoring Php Image Material Ui Visual Studio 2008 Solr Docker Compose .htaccess Kotlin Build Telegram Gridview Perforce Windows 7 Api Laravel Pascal Testing Recursion Programming Languages Webview Ravendb Deployment Ignite Chart.js Git Windows Phone 8.1 Sql Server Colors Visual Studio 2017 Pagination Hash Couchbase Xamarin.forms Xml Drupal 6 Nativescript Calendar Identityserver4 Spring Boot Electron Selenium Webdriver Msbuild Magento Clearcase Chef Infra Google Calendar Api Ibm Cloud Printing Frameworks Filter Google Cloud Storage Function Hybris Asp.net Web Api Ftp Websphere Glassfish Binary Netsuite Rabbitmq Linux Kernel Grails Dynamics Crm Visual C++ Plsql Fluent Nhibernate Qt4 Apache Flink C# 4.0 Pdf Cron Fullcalendar Asp.net Mvc Google Chrome Extension Android Ndk Download Usb Virtualbox Elm Windows 10 Virtual Machine Openlayers 3 Synchronization Xamarin.ios Perl Wolfram Mathematica Netbeans Dask Swift3 Gulp Highcharts Tridion Hbase Ionic Framework Parse Platform Angularjs Nservicebus Jquery Plugins Winforms Nestjs Here Api Uwp Sencha Touch Sequelize.js Enums Oracle10g Gnuplot Sparql EmptyTag Keras Oop Typescript Qt Internet Explorer Signalr Twilio Emacs Django Yii Ethereum Svn Join Syntax Unit Testing Ssrs 2008 Parsing Nhibernate Sharepoint 2013 Python 2.7 Geometry Mariadb Database Design Winapi Visual Studio Code C++11 Graphviz Ip Soap Animation Node.js Netty Opencv Playframework 2.0 Polymer Jekyll Tableau Api Ada Dom Microservices Jsf 2 Coffeescript Mule Wcf Phpstorm Text R Sencha Touch 2 Batch File Groovy Erlang Nsis Memory Leaks Anaconda

Copyright © 2024. All Rights Reserved by - Fatal编程技术网