Python 匹配多个<；p>；刮痕标签_Python_Xpath_Scrapy - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 匹配多个<；p>；刮痕标签_Python_Xpath_Scrapy - Fatal编程技术网

Python 匹配多个<；p>；刮痕标签

python xpath scrapy

Python 匹配多个<；p>；刮痕标签,python,xpath,scrapy,Python,Xpath,Scrapy,我有如下类似的html： <div class="articleBody"> <p> <strong>Text</strong> lorem ipsum... <strong>lorem ipsum...</strong> </p> <p>lorem ipsum <strong> lorem ipsum lorem ipsum</strong&

我有如下类似的

html

：

<div class="articleBody">
  <p>
    <strong>Text</strong> lorem ipsum... 
    <strong>lorem ipsum...</strong>
  </p>
  <p>lorem ipsum 
    <strong> lorem ipsum lorem ipsum</strong>
    lorem ipsum...lorem ipsum...lorem ipsum...lorem ipsum...
  </p>
</div>

但这只返回第一个

任何帮助都将不胜感激。

试一试：

for node in response.xpath('//div[@class="articleBody"]//p'):
        print node.xpath('string()').extract()

…然后您可以连接字符串或将它们添加到列表或其他任何内容，而不是像我那样打印它们

xpath 2.0还有string-join（）函数，但看起来scrapy支持xpath 1.0

更多关于字符串连接的信息，请点击此处：

尝试一下：

for node in response.xpath('//div[@class="articleBody"]//p'):
        print node.xpath('string()').extract()

…然后您可以连接字符串或将它们添加到列表或其他任何内容，而不是像我那样打印它们

xpath 2.0还有string-join（）函数，但看起来scrapy支持xpath 1.0

关于字符串连接的更多信息，请参见此处：

我不知道scrapy，但您应该能够使用

//div[@class=“articleBody”]/p/text（）

p.s来获取所有文本。如果您不关心p标记是否是div的直接子标记，我可能误解了“减去标记”的含义。Luciddream是正确的，或者//p而不是/p[@class=“articleBody”]。可以将所有内容转储到一个字符串中，如：'.join（response.xpath（'//div[@class=“articleBody”]/p//text（））.extract（））我不知道scrapy，但您应该能够使用
//div[@class=“articleBody”]/p/text（）
p减去标记意味着.Luciddream是正确的，或者如果您不关心p标记是否是div[@class=“articleBody”]的直接子级，则使用//p而不是/p。可以将所有内容转储到一个字符串中，如：“”.join（response.xpath（'//div[@class=“articleBody”]/p//text（））.extract（））

[xpath]相关文章推荐

随机文章推荐

Synchronization 带有本地数据库的Java RIA应用程序+；同步支架 synchronization

Synchronization 信号量在内核中的实现。。？ synchronization operating-system kernel

Synchronization 如何将谷歌日历从Galaxy S3同步到Web日历 synchronization google-calendar-api

Synchronization Bitbucket服务器API：是否可以通过API签出/拉取/合并？ synchronization

[python]相关推荐

我如何知道在Python中使用什么数据类型？
Python Arrays Types

Python 如何获取模型的总计数'；s相关对象和模型'；儿童'；什么是相关对象？
Python Django

Google应用程序引擎在Python中运行缓慢
Python Google App Engine

Python代码重构问题。简化
Python List

python中的字符串操作
Python

哪些基于python的ajax推送服务器适合使用
Python

决定使用哪个包管理器安装Python包
Python

Python 比较TCP校验和与Scapy？
Python Networking

Python 如何拆分CSV行，使行[0]为名称，而所有剩余项为元组？
Python Csv

Python正则表达式负查找
Python Regex

Python 如何从GUI应用程序正确终止QThread？
Python Multithreading Qt

如何在没有os.kill（）的情况下终止进程-OSGeo4W Python 2.5
Python Qt

构建web分析工具的建议（最好是Python友好的）-OLAP/Python
Python

Python 在不使用DOM方法的情况下迭代解析大型XML文件
Python Xml

Python 使用argparse完成Bash选项卡不会显示目录中的所有文件
Python Bash Shell

Python Django Web服务器阻塞的主要原因是什么？
Python Django

Python多进程存储数据，直到在每个进程中进一步调用
Python Scikit Learn

使用高阶函数的Python
Python

Python：使用Unicode编写器将Unicode写入CSV
Python Csv Unicode Utf 8

在Google应用程序引擎中开始使用Python
Python Google App Engine

使用OpenCV和Python保存多个图像
Python Opencv

Python：拆分混合字符串
Python

Python Flask：如何使用线程使回调函数无阻塞
Python Multithreading Web Flask

是否可以使用Python/BeautifulSoup从HTML块中除去除锚定/链接之外的所有标记？
Python Html

如何在Python（2.7+；）中等待回车键？
Python

Python从另一个包获取模块引用，知道包和模块名称
Python

python生成嵌套字典键错误
Python Dictionary

在python中添加范围
Python Python 3.x

python日期时间和日期比较
Python

与Flask或其他Python webframework并行生成和处理Websocket输出数据的后台线程
Python Multithreading Websocket Flask

Tags

C# Joomla Blazor Geometry Memory Facebook Graph Api Animation Winapi Notifications Asp.net Web Api Qt4 Active Directory Azure Ad B2c Spring Batch Filter Google App Maker Com Serial Port Clang Apache Kafka .htaccess Debian Inheritance Grafana Drop Down Menu Model View Controller Emacs Weblogic Module Big O Spring Cloud Yii2 Makefile Extjs Excel Formula Cookies Installation Mfc Vaadin Scrapy Mapreduce Github Deep Learning Dotnetnuke Exchange Server Ruby On Rails Windows Phone 8 Hadoop Amazon Dynamodb Aws Lambda Ldap Arangodb Flask Report Apache Zookeeper File Upload Socket.io Yaml Cypress Openlayers 3 Jira Directx Vhdl Sql Server 2005 Git Character Encoding Ubuntu Libgdx Telerik Swiftui Synchronization Silverlight 4.0 Unity3d Asp.net Mvc 3 Wix Sbt Chef Infra List Ant Network Programming Wordpress Configuration Java Keycloak Ftp Angularjs Vbscript Laravel 4 Jersey Documentation Jwt Tkinter Odata Indexing Go Ajax Debugging Groovy Drupal 7 Axapta Streaming Rust Ada Shiny Jaxb Sip Julia Fiware Windows Google Drive Api Version Control Visual Studio 2015 Artificial Intelligence Internationalization Bootstrap 4 Inno Setup C Cocoa Sharepoint Ssas Silverlight Optimization Shell Umbraco Windows 7 Rx Java Scikit Learn Tsql Formatting Search Doxygen Swagger Ignite F# View Docusignapi Functional Programming Mips Webgl Perforce Swift Artifactory Webpack Apache Flink Bluetooth Netbeans Xquery Google Chrome Extension Tabs Button Linux Abap Matlab Math Amazon Redshift Asp.net Core Mvc Isabelle Ruby On Rails 3.2 Gwt Javascript Menu Android Udp Cluster Computing Data Structures Open Source Opengl Jdbc Ethereum Javafx Api Jhipster Aem Selenium Push Notification Python 2.7 Zsh Nest Azure Functions Sonarqube Xaml Pandas Applescript Windows Runtime Gis Opencl Embedded Magento Java 8 Automated Tests Solr Stm32 Reactjs Dart Templates Phantomjs Virtual Machine Windows Mobile C++11 Cordova Scripting

Copyright © 2024. All Rights Reserved by - Fatal编程技术网