Python 使用difflib&；忽略页面某些部分的内容差异；美丽之群_Python_Html_Web Scraping_Beautifulsoup_Difflib - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/321.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用difflib&；忽略页面某些部分的内容差异；美丽之群_Python_Html_Web Scraping_Beautifulsoup_Difflib - Fatal编程技术网

Python 使用difflib&；忽略页面某些部分的内容差异；美丽之群

python html web-scraping

Python 使用difflib&；忽略页面某些部分的内容差异；美丽之群,python,html,web-scraping,beautifulsoup,difflib,Python,Html,Web Scraping,Beautifulsoup,Difflib,以下代码可以很好地将仅内容的更改提取到：此页面本质上是一个文档，因此，我只感兴趣的是检测页面页脚上方和顶部菜单下方部分的差异。我原以为这样一个页面上的页脚或菜单很少会有变化，但几天后重新运行diff显示出细微的变化： - Potential Entitlement - Social Security Statement - American Indians and Alaska Natives + American Indians/Alaska Natives - Asian American

以下代码可以很好地将仅内容的更改提取到：

此页面本质上是一个文档，因此，我只感兴趣的是检测页面页脚上方和顶部菜单下方部分的差异。我原以为这样一个页面上的页脚或菜单很少会有变化，但几天后重新运行diff显示出细微的变化：

- Potential Entitlement - Social Security Statement - American Indians and Alaska Natives + American Indians/Alaska Natives - Asian Americans and Pacific Islanders + Asian Americans/Pacific Islanders - Self-employed + Self-Employed - Awards + Digital Government Strategy + Open Government - Podcasts - Webinars - Digital Government Strategy
考虑到我已经走了解析整个页面的beautifulsou路线（而不是说，用lxml只解析其中的部分），我是否被限制在这里？在运行difflib之前，我是否需要返回并将页面分为多个部分（或者仅仅是部分
//div[@class='grid']
）

- Potential Entitlement - Social Security Statement - American Indians and Alaska Natives + American Indians/Alaska Natives - Asian Americans and Pacific Islanders + Asian Americans/Pacific Islanders - Self-employed + Self-Employed - Awards + Digital Government Strategy + Open Government - Podcasts - Webinars - Digital Government Strategy

[html]相关文章推荐

Html 绝对定位DIV未在IE上显示 html css internet-explorer

Html 如何在IE9中用渐变填充显示th元素的边界？ html css

Html 为什么'；这张图片表不是在IE上对齐的吗？ html image internet-explorer

Html Twitter引导程序3：将列与容器内容对齐 html twitter-bootstrap-3

Clojure Enlive：如何将Enlive嵌套的地图数据转换回HTML？ html clojure

带有复选框的组织模式html导出 html emacs

Html Iframe在IE 11中的固定标题上滚动，如何使其在标题下/后面滚动？ html css iframe

Html 使用VBA通过Access浏览网页/上传IE html vba internet-explorer ms-access

Html 在电子邮件模板中将一个图像放置在另一个图像之上 html css email

HTML灰条卡在页面底部 html css responsive-design

Html 阻止网页水平滚动？ html css

Html 如何在两个中间列之间绘制分隔线？ html css

Html 检索已在页面上输入到程序的数据 html css ruby web-applications

Html 带左箭头的引导jumbotron html css twitter-bootstrap

Html 如何减少空间元素？ html

Html css更改输入光标/插入符号颜色 html css input

如何从呈现组件获取HTML输出 html reactjs

Html 无法链接目录中的文件 html css

Html Bootstrap4菜单切换折叠在AngularJs 1.x中不起作用 html angularjs twitter-bootstrap bootstrap-4

Html 使用transform:rotateZ（180度）translateY（2倍）css属性如何旋转下拉箭头？ html css vue.js

随机文章推荐

Scrapy 刮擦教程例外 scrapy

Scrapy 在刮皮多恩斯上循环'；我不能正常工作 scrapy web-crawler

设置scrapy shell请求的标题 scrapy

是否将标识符附加到Scrapy请求？ scrapy web-crawler

添加从Scrapy中的其他文件计算的字段的位置 scrapy

Scrapy 使用Python将图像类型的电子邮件转换为文本 scrapy

Scrapy 在n个请求失败后，如何告诉爬行器停止请求？ scrapy

是否可以使用intersphinx链接到scrapy文档？ scrapy python-sphinx

Scrapy 初学者：下一页和选择 scrapy

[python]相关推荐

Tags

Vba Tcp Rabbitmq Flask Jenkins Autohotkey Graphviz Ethereum Web Applications Pagination Mqtt Stream Windows Mobile Gcc Email Plone .net 4.0 Sql Server 2008 Corda Aem Angular6 Active Directory Ckeditor Lucene Jasmine Ios5 Date Azure Service Fabric Parallel Processing Macos Compression Google Calendar Api Iis Ms Office Kernel Visual Studio 2012 Ruby On Rails 3.2 Dependency Injection Crystal Reports Notepad++ Menu Math Perforce Racket Smtp Build Android Fragments Deep Learning Azure Devops Linker Amazon Cloudformation Azure Sql Database Netsuite Meteor Sed Couchdb Filter Teamcity R Tensorflow Dom Google Visualization Collections Openshift Dotnetnuke Spring Boot Biztalk Csv Ajax Programming Languages .net Logic Drop Down Menu Computer Science Matlab Google Chrome Internationalization Office365 Opengl Maven 2 Amazon Redshift Ffmpeg Perl Google Plus Modelica Architecture Memory Management Tabs Sml Sql Server 2008 R2 Navigation Datetime Jms Service Sprite Kit Here Api Air Regex Python Sphinx Webpack Entity Framework Core Cypress Sap Cucumber Cloud Stata Mobile Pointers Stm32 Raspberry Pi Antlr4 Sphinx Aws Lambda Opencart Mono Wolfram Mathematica Character Encoding Cocoa Phpmyadmin Devexpress Mongoose Hadoop Jdbc Axapta Opengl Es Big O Xampp Vaadin Three.js Tkinter Silverlight Virtualbox Markdown Cmake Inno Setup Sqlalchemy Redis Ansible Google Chrome Devtools Sharepoint 2013 Scikit Learn Azure Ad B2c Triggers Autodesk Forge Com Google Apps Script Nsis Gitlab Time Complexity Google Maps Odata Geolocation Javascript Data Structures Centos Plot Apache Zookeeper Android Tridion Sdk Hazelcast Parameters Utf 8 Mysql Debugging Google Cloud Firestore Phantomjs Jmeter Opencl Xaml Spring Integration Android Studio Formatting Linux Kernel Nosql Abap Tableau Api Fiware Nativescript Glassfish Qml Magento2 Playframework Caching Exception Servlets Cocos2d X Verilog Jestjs Apache Spark Yii2 Openerp Dns Mongodb Artificial Intelligence Doctrine Resharper Coding Style Push Notification Nservicebus Talend

Copyright © 2024. All Rights Reserved by - Fatal编程技术网