使用更改href的Python web抓取_Python_Web Scraping_Tags_Href - Fatal编程技术网

使用更改href的Python web抓取

python web-scraping tags

使用更改href的Python web抓取,python,web-scraping,tags,href,Python,Web Scraping,Tags,Href,我一直在使用Python2.7抓取一些网站 page = requests.get(URL) tree = html.fromstring(page.content) prices = tree.xpath('//span[@class="product-price"]/text()') titles = tree.xpath('//span[@class="product-title"]/text()') 这适用于包含这些清晰标记的网站，但我遇到的许多网站都

我一直在使用Python2.7抓取一些网站

    page = requests.get(URL)
    tree = html.fromstring(page.content)

    prices = tree.xpath('//span[@class="product-price"]/text()')
    titles = tree.xpath('//span[@class="product-title"]/text()')

这适用于包含这些清晰标记的网站，但我遇到的许多网站都有以下HTML设置：

<a href="https://www.retronintendokopen.nl/gameboy/games/gameboy-classic/populous" class="product-name"><strong>Populous</strong></a>

我在搜索一个类似*的角色，比如“我不在乎这里有什么，只要用a href=”把所有东西都拿走就行了”。。但是什么也找不到

titles = tree.xpath('//a[@href="*"]/text()')

另外，我是否需要在a标记中指定class=，如

titles = tree.xpath('//a[@href="*" @class="product-name"]/text()')

编辑：我还发现了一个修复方法，如果a路径中只有更改的标记，请使用

titles = tree.xpath('//h3/a/@title')

此标记的示例

<h3><a href="http://www.a-retrogame.nl/index.php?id_product=5843&amp;controller=product&amp;id_lang=7" title="4 in 1 fun pack">4 in 1 fun pack</a></h3>

试试这个：

titles = tree.xpath('//a[@class="product-name"]//text()')

注意类选择器后面的

。

试试beautifulsoup和@nishantkumar no！beautifulsoup不是理想的刮削解决方案<代码>XPath是！。试试刮痧。另外，在xpath中，//a[@href]被用来证明存在这太简单了哈哈，你能解释一下双精度运算符实际做了什么，而单精度运算符不起作用吗？@Alex double

的意思是

任何间接子精度

，即你可以观察到

之后有

。因此，xpath无法找到您的
文本
内容，因为它希望它是
立即的
子内容。这就是为什么我们需要
/
。希望天气转晴
titles = tree.xpath('//a[@class="product-name"]//text()')

[web scraping]相关文章推荐

Web scraping 从网站上删除链接-can'；我看不到href web-scraping

Web scraping 如何清理.aspx站点 web-scraping

Web scraping 我可以让htmlunit刮板在多页上工作吗？ web-scraping

Web scraping 如何使用Scrapy从网站上刮取地址？ web-scraping scrapy

Web scraping Import.io-它能取代和服实验室吗 web-scraping

Web scraping 特定站点的刮擦和飞溅超时 web-scraping scrapy

Web scraping Python网页抓取希腊字母未显示 web-scraping

Web scraping python3.7-PhantomJS-Driver.get（url）和'；窗口句柄/名称无效或已关闭？'； web-scraping phantomjs

Web scraping 使用Beautifulsoup刮取欧足联网页 web-scraping

Web scraping 我需要从100个Microsoft Word文档中提取数据，并在CSV文件中创建一个表 web-scraping

Web scraping 使用Scrapy刮取数据时数据重复 web-scraping scrapy

Web scraping 木偶演员的执行环境被破坏，很可能是因为导航。当刮取大量内容时 web-scraping

Web scraping 如果加载聊天机器人的代码隐藏在Google Tag Manager中，是否有一种方法可以通过编程方式扫描网页以查找聊天机器人的存在？ web-scraping

Web scraping 谷歌如何在搜索时解决所有问题？ web-scraping

随机文章推荐

IMap Hazelcast尺寸操作 hazelcast

什么是Hazelcast HD内存？-开/关堆？ hazelcast

Hazelcast客户端连接端口 hazelcast

Hazelcast-当一个新的集群成员正在合并时，新成员是否可以运行？ hazelcast

指定MapStore时Hazelcast查询如何工作？ hazelcast

从3.5升级到3.8后，Hazelcast不工作 hazelcast

如何配置列表<&燃气轮机；键入hazelcast-client.xml以进行自定义字节数组序列化 hazelcast

Hazelcast作为二级缓存+分布式 hazelcast

[python]相关推荐

Python IOError：当文件存在时，没有这样的文件
Python File Io

Python 使用漂亮的汤族树解析HTML页面
Python Html Parsing Tags

Python getattr（uuu内置项'；int'；）不在web2py中工作
Python

Django在上载Python文件时遇到问题
Python Django

Python-在文本文件中追加新浮点和删除旧浮点
Python File Text

Python 朋友ID（用户）函数错误（尝试确定二级连接）
Python

Python 函数中的variabletype有问题
Python

Python 如何解释时区2013-04-01T00:00:00.000+；02:00?
Python

是否有支持Python 3.8的延迟微分方程（DDE）Python库？
Python

Python 将包含列表的所有列展开为自己的列
Python Pandas Dataframe

Python 如何比较Django中的两个文本文件？
Python Django Web

Python 如何在Excel中保存日期？
Python Excel

在python中将函数输出链接到GUI
Python User Interface Tkinter

Python 将数据中的列名称和索引转换为列本身，并将相应的值作为第三列的有效方法？
Python Pandas

我正在尝试用Selenium Python在Amazon上自动购买东西
Python Selenium Selenium Webdriver

Django/Python中的事件自动删除
Python Django

如何在Python中使用remove0（）
Python Python 3.x

Python 移除所有'；b'；html脚本中的标记及其内容
Python

Python 熊猫过滤器系列，以字符串列表作为值
Python Pandas

[多处理python]：无输出
Python

Python 在Numpy中添加（2，）和（2，1）数组
Python Numpy

Python QMouseEvent是类型5？什么是5型？
Python

Python “Seaborn地块调整”；绘制“上下文”；图例标记大小未按预期工作
Python Matplotlib

Python从字符串导入异常列表
Python

Python 每周同一天内数据的平均值
Python Pandas Dataframe Datetime

Python分数类和菜单选项
Python Function Class

Python test_idx是什么意思？
Python Scikit Learn

Python Seaborn显示每个面板中的观察数量
Python

Python 熊猫添加一列数字来表示最近的月份
Python Pandas Dataframe

Python Django sql错误在视图中，但不是通过管理员
Python Sql Django Model

Tags

Import Marklogic Processing Opencart Json Dll Ruby On Rails 3.2 Stm32 Architecture Functional Programming Mongoose Mercurial Python Sphinx Generics Apache Flink Python 2.7 Button Hazelcast Sas Uiview Docusignapi Types Hadoop Authentication Migration Outlook Spring Cloud Grails Dynamics Crm Ios8 Tcl Ios4 Sms Uitableview Erlang View Coldfusion Clang Javafx Activemq Acumatica Pip Asp.net Mvc 3 Plugins Validation Logstash Spring Gradle Amp Html Perl Ldap Events Swift3 Web Scraping Binary Makefile Xmpp Rest Grep Mqtt Optimization Pyspark Eclipse Rcp Iframe Redux Webgl Windows Phone 8 Indexing Netlogo Xcode Node.js Typo3 Groovy Twilio Macros Sharepoint 2007 Doxygen Typescript Ajax Dotnetnuke Cocos2d X Visual Studio 2017 Geometry Collections Regex Extjs4 Drupal 7 Primefaces Azure Cosmosdb Vb.net Nativescript Amazon Cloudformation Ionic2 Grid Angular Material Tridion Vmware Isabelle Asp.net Mvc C# 4.0 Amazon Redshift Yaml Testing Robotframework Scripting File Upload String Nlp Discord Testng Orm System Verilog Quickbooks Yii2 Xamarin.forms Active Directory Pdf Url Rewriting Azure Data Factory Apache Kafka Sugarcrm Wordpress Ibm Midrange Calendar Hive Path Compression Mapping Webstorm Orientdb Flash Animation C# 3.0 Floating Point Websocket Jsf Encryption Silverlight Arm Cocoa Touch Gremlin Telegram Asp.net Mvc 4 Antlr4 Android Layout Windows Phone 8.1 Opencv Content Management System Artifactory Io Csv Jwt Version Control Asp.net Mvc 5 Terminal Sitecore Keycloak Struct Twitter Bootstrap Matplotlib C++ Post Big O Memory Management Menu Fonts Sails.js Zend Framework Webview Hybris Safari Bison Java 8 Ipad Doctrine Orm Eclipse Plugin Unicode Openerp Deep Learning Logging Google Calendar Api Google Analytics Ipython Compiler Errors Asp Classic Kotlin Vhdl Asp.net Core Mvc Reference Linux Session Build Jaxb D Xamarin Docker Rdf Tabs Chart.js Nginx Xampp

Copyright © 2024. All Rights Reserved by - Fatal编程技术网