Python 如何提取所有url'；什么是网站上的？_Python_Unix - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/email/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何提取所有url'；什么是网站上的？_Python_Unix - Fatal编程技术网

Python 如何提取所有url'；什么是网站上的？

python unix

Python 如何提取所有url'；什么是网站上的？,python,unix,Python,Unix,我正在用Python编写一个程序来提取给定网站的所有URL。所有url都来自一个站点，而不是一个页面。我想我不是第一个想这样做的人，我想知道是否有现成的解决方案，或者我是否必须自己编写代码。这并不容易，但一个不错的起点是研究这两个库：我没有看到任何现成的脚本可以在快速的谷歌搜索中实现这一点使用scrapy框架使这几乎变得微不足道耗时的部分将是学习如何使用scrapy。他们的教程很棒，不应该花你那么长时间创建一个其他人可以使用的解决方案是成为编程社区一员的乐趣之一。如果刮板不存在，你

我正在用Python编写一个程序来提取给定网站的所有URL。所有url都来自一个站点，而不是一个页面。

我想我不是第一个想这样做的人，我想知道是否有现成的解决方案，或者我是否必须自己编写代码。

这并不容易，但一个不错的起点是研究这两个库：

我没有看到任何现成的脚本可以在快速的谷歌搜索中实现这一点

使用

scrapy

框架使这几乎变得微不足道

耗时的部分将是学习如何使用scrapy。他们的教程很棒，不应该花你那么长时间

创建一个其他人可以使用的解决方案是成为编程社区一员的乐趣之一。如果刮板不存在，你可以创建一个，每个人都可以使用它从一个网站获取所有链接

给出的答案是我建议的（+1）

但如果您真的想做一些快速简单的事情，并且您在*NIX平台上，请尝试以下方法：

lynx -dump YOUR_URL | grep http

其中，您的URL是您要检查的URL。这应该可以为您提供所有想要的链接（除了未完全编写的链接）
您首先必须使用或之类的软件包下载页面的HTML内容

之后，您可以使用来提取URL。事实上，演示了如何提取
PyQuery中包含的所有链接也是一个救命稻草。。。您将能够像在jQueryTanks中一样查询DOM以获得答案 for link in soup.find_all('a'): print(link.get('href')) # http://example.com/elsie # http://example.com/lacie # http://example.com/tillie

[unix]相关文章推荐

Unix Awk将取代单一报价 unix shell awk

Unix 主可执行文件上的dlopen（）/dlsym（）：它的可移植性如何？ unix dll

如何使用UNIX shell脚本删除平面文件的页眉和页脚记录？ unix scripting shell

Unix 所有ClearCase VOB和视图中检出和劫持文件的最佳备份策略 unix scripting clearcase

Unix 写入管道时中断的系统调用错误 unix

Unix 在已安装gcc 3.4.3的solaris 10上编译/安装gcc 4.1.2 unix gcc

Unix 将匹配的文本行复制到另一行 unix

使用Unix仅删除文件中的最后一个逗号 unix csv sed

Unix step赢了'；不完整 unix

Unix 如何从文本文件打印第i到第j行？ unix

Unix 使用mv命令将文件移动到存储在变量中的目标 unix

是否有像'column'这样的Unix风格的命令可以格式化为表？ unix perl

将特殊字符传递到telnet Unix unix

Unix 将一个目录替换为另一个目录 unix

Unix 仅替换第一个匹配行，同时保留前导空格 unix sed

Unix 我们可以在dup2中使用读fd和写fd作为参数吗 unix

Unix 在awk内使用管道时的性能注意事项 unix awk

Unix 退出后是否可以在屏幕上保留less的输出？ unix

省略“；是一个目录"；在Unix中使用find命令时的结果 unix grep directory

Unix 在Solaris和AIX中组合gunzip和tar命令 unix

随机文章推荐

[python]相关推荐

Python Django PayPal IPN URL包括不工作
Python Django Paypal

尝试使用python apt API安装程序包时出错
Python Ubuntu

Python BeautifulSoup url抓取
Python Web Scraping

Python 使用mechanize获取数据的替代方案？
Python Post

函数之间的Python信号以消除繁忙等待
Python

Python图形库：如何设置窗口的x和y坐标？
Python Graphics Tkinter

Python 在数据帧中给定字段1，有条件地查找字段2中出现的百分比
Python Python 2.7 Pandas Dataframe

Python Xgboost DMatrix的初始化减少功能数量
Python Python 2.7 Pandas Machine Learning

Python pafy global不跨函数调用边界工作
Python Python 3.x

在Python中手动高效地创建图像直方图
Python Opencv Numpy Image Processing Matplotlib

Python 如何在django rest框架中对具有数组属性的对象发出post请求
Python Django Serialization Django Rest Framework

Python 基于条件时间序列添加列
Python Pandas

Python 绘图：单个大柱及其频率
Python Pandas

Python 属性错误：'；非类型'；对象没有属性'；重塑'；
Python

Python 类型错误：'<'；在'；int'；和'；列表'；在numpy1d中
Python Python 3.x Pandas Numpy

Python 将值为字典列表的字典转换为数据帧
Python Pandas Dataframe

Python—将特定文件从列表复制到新文件夹中
Python Python 3.x Tkinter

Python 在某些索引中更改numpy.array中的字符串值
Python Numpy

如何在Kivy（Python）中覆盖2个布局？
Python User Interface

Python 使用pyaes进行AES加密时，明文块必须为16字节错误
Python Python 2.7

Python 扫描PDF图像中页码的识别
Python Opencv Image Processing

Try/Except块的Python单元测试
Python Unit Testing

Python 使用pytorch展开后，图像会改变颜色
Python Pytorch

如何解决在virtualenv中安装python包时出现的错误？
Python Pip

Python 是否生成与现有1D数组具有预先指定相关性的NumPy 1D数组？
Python Arrays Numpy

Python 使用sympy解析字符串时出现意外行为
Python Python 3.x Math

Python 无法在空闲状态下导入下载的Zelle图形模块
Python

Python 矢量化操作？
Python Pandas Numpy

Python 我应该在哪里实现碰撞检查方法？
Python

Python 基于替换创建字符串组合
Python Python 3.x

Tags

Azure Ad B2c Uiview Redirect Pycharm Sequelize.js Python 2.7 Sharepoint Office365 Enums Selenium Asp.net Mvc 3 Ipython Wix Cmd Google Cloud Storage Drools Automated Tests Spring Security Routes Airflow Character Encoding Bazel Responsive Design Sphinx Project Management Artifactory Perl Jms Computer Vision Air Jqgrid Apache Flex Material Ui Model Symfony Entity Framework Core Coding Style Amazon Dynamodb Visual C++ Google Cloud Firestore Ipad Opencl Xamarin.android Video Streaming Exchange Server Notifications Angular6 Microsoft Graph Api Actions On Google Jsf 2 Google App Engine Rss Common Lisp Colors Appium Twitter .htaccess Magento2 Safari Sonarqube Jakarta Ee Log4j React Native Ionic Framework Python 3.x Delphi C++11 Gremlin Uml Android Microservices Sml Erlang Bots Hbase Vim Glassfish Video Ruby On Rails 4 Joomla Https Git Uwp Asterisk Programming Languages Deep Learning Webpack Nginx Razor Yii Internationalization Java Me Ios4 Paypal Google App Maker View Actionscript Kernel Iphone Cookies Xamarin.forms Gradle F# Umbraco Javascript Cocos2d X Netsuite Neo4j Swagger Itext Adobe Powerbi Azure Devops Doctrine Orm Mediawiki Plsql Websphere Windows Services Silverstripe Scheme Mapreduce Jetty Entity Framework Amazon Ec2 Templates Batch File Single Sign On Google Analytics Serial Port Hazelcast Gatsby Silverlight 4.0 Linq To Sql Winapi Latex Sap Azure Data Factory Web Scraping Asp.net Mvc 4 Rx Java Migration Google Bigquery Azure Functions Couchbase Blackberry Heroku Aws Lambda Julia Xml Here Api Clang Tensorflow Ethereum Jhipster Facebook Graph Api Modelica Excel Formula Doctrine Dataframe Polymer Object Vbscript Groovy Phantomjs Marklogic Debugging Scala Security Design Patterns Db2 Grails Rally If Statement Autocomplete Report Arm Laravel 4 Xsd Jdbc Java Webgl Reporting Services Windbg Karate Openssl Electron Botframework Uitableview Swift3 Ravendb Nservicebus Button Asp.net Mvc 2 Mod Rewrite Activemq Visual Studio Cakephp Virtualbox Abap Forms Parse Platform

Copyright © 2024. All Rights Reserved by - Fatal编程技术网