Python 用于提取格式困难的URL的正则表达式_Python_Regex_Url_Hyperlink - Fatal编程技术网

Python 用于提取格式困难的URL的正则表达式

python regex url hyperlink

Python 用于提取格式困难的URL的正则表达式,python,regex,url,hyperlink,Python,Regex,Url,Hyperlink,我的问题类似于，但更复杂我试图找出一个正则表达式来从文本文档中提取URL。棘手的是，一些URL被嵌入到更难解析格式的句子中。下面是我想从中提取URL的文本示例： <p>There are several links of the general format http://www.foo.com/index.html.</p> <p>There are many websites (e.g. http://www.foo.com/abc/def?a=2&am

我的问题类似于，但更复杂

我试图找出一个正则表达式来从文本文档中提取URL。棘手的是，一些URL被嵌入到更难解析格式的句子中。下面是我想从中提取URL的文本示例：

<p>There are several links of the general format http://www.foo.com/index.html.</p>
<p>There are many websites (e.g. http://www.foo.com/abc/def?a=2&b=3) that end oddly: http://www.foo.com/results</p>

有几个通用格式的链接http://www.foo.com/index.html.
有许多网站（例如。http://www.foo.com/abc/def?a=2&b=3)奇怪的是：http://www.foo.com/results

在这些示例中，第一个URL在需要排除的链接后面有一个句子结束句点。第二个链接在URL的末尾有一个右括号，第三个链接在碰到HTML标记时结束

就我而言，句点（和右括号）是有效的URL字符，除非它是最后一个字符。简而言之，问题在于如何处理字符串中的有效字符，前提是这些字符不是字符串中的最后一个字符

我目前无法处理这种情况的正则表达式是（Python）：

m=re.findall（（（http:| https:）/[^\您可以禁止句点作为最后一个符号，如下所示：
m = re.findall("((http:|https:)//[^ \<]*[^ \<\.])",line)

m=re.findall（（（http:| https:）/[^\可能你想要一个这样的魔兽世界，我绝对没有想到。非常简单的解决方案。谢谢！
m = re.findall("((http:|https:)//[^ \<]*[^ \<\.])",line)




[regex]相关文章推荐



                                                        
Regex 将两个单词的字符串拆分为单独的单词[但有时字符串中只有单词…]
regexstring 
Regex sed一行删除所有单个换行？
regexsed 
Regex 正则表达式在记事本中查找/替换++；
regexnotepad++ 
Regex 用正则表达式进行子串匹配
regex 
Regex Grep只提供一行注释，但不包括以下内容http://example.com
regexlinuxbashgrep 
Regex 使用Perl将文件中的键替换为值
regexperl 
Regex 正则表达式字符串转换/提取
regexstring 
Regex 下一次采样后，JMeter提取的值消失
regexjmeter 
Regex 有人能帮助定义这个正则表达式的功能吗？
regex 
Regex Bash正则表达式测试是否以相反的方式工作？
regexbashif-statement 
Regex 如何通过正则表达式排除字符串的最后三个位置？
regex 
Regex 记事本++；和正则表达式：如何查找/替换字符串中特定于大写的部分
regextextnotepad++ 
Regex 301将所有博客文章重定向到新的子文件夹
regexapache.htaccessmod-rewriteseo 
Regex:match"；第3组。*第1组“；如果组2不在组3和1之间
regexpython-3.x 
Regex 除非特定字符不'；不存在
regex 
Regex 通用bbcode正则表达式
regex 
Regex 在express router中选择分隔符
regexexpress 
Regex 正则表达式匹配第n次出现
regexperl 
Regex Perl正则表达式替换，环境变量的计算
regexperl 
Regex 正则表达式从Alteryx中具有特定模式的字符串中提取数字
regex 
                                       





随机文章推荐



                                                        
Events wxWidgets:检测自定义控件上的单击事件
events 
Events 在WebBrowser控件上处理关键事件
eventsbrowser 
Events Magento：获取订单Id，监听事件签出\u onepage\u控制器\u成功\u操作
eventsmodule 
Events 如何解开并重新绑定
eventsjquery 
Events Firefox加载项删除事件侦听器
eventsfirefox 
Events 在C++/CLI如何定义线程安全事件访问器？
eventsc++-cli 
Events CQR中命令处理程序、聚合、存储库和事件存储之间的关系
eventsdomain-driven-design 
Events 如何获取删除密钥的event.keyCode？
events 
Events 暂停鼠标交互/锁定所有项目
events 
Events RabbitMQ使用者断开事件
eventsrabbitmq 
Events 使用电晕/lua处理多点触摸
eventslua 
Events 在grails域类中，BeforeInsert和BeforeUpdate被触发两次
eventsgrails 
Events React.js:Can'；"；返回false"；不再有等效的吗？
eventsreactjs 
Events 如何使用Adobe campaign记录aem活动中所有与会者的出席情况？
eventsadobeaem 
Events 针对移动和桌面设备的实时消息服务
eventsparse-platformwebsocket 
Events 状态图与事件混淆
eventsuml 
Events 聚合物是否具有'；组件出现'；组件的事件？
eventspolymer 
Events IshitteVisible会抑制哪些事件
eventsuwp 
Events Vue-tables-2网格组件使用，如何使用事件总线？
eventsvue.js 
Events 如何收听UWP Xaml滑块操纵开始/结束事件？
eventsuwp


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python （Py）Qt：图像下载问题
									Python
							 									Qt
							 
定制Python Twisted协议：良好实践和复杂性？
									Python
							 
使用setup.py在Python包中包含资源
									Python
							 									Web
							 
Python 把一张单子切成一张单子
									Python
							 									Python 3.x
							 
Python Django多对多模型继承
									Python
							 									Django
							 
Python 如何从给定的URL下载此XML文件
									Python
							 									Xml
							 
Python：如何最好地组合两个正则表达式'；是一种模式匹配吗？
									Python
							 									Regex
							 
Python 结合matplotlib和x27；s鼠标按钮事件与拾取事件
									Python
							 									Matplotlib
							 
为什么在我使用自制软件安装Python3之后，Python没有在Mac上更新？
									Python
							 									Macos
							 									Python 2.7
							 									Python 3.x
							 
Python T分布的奇异行为
									Python
							 									Numpy
							 									Matplotlib
							 
Python中最简单的mergesort实现，存在类型问题
									Python
							 									Sorting
							 
Python 对mock.sentinel对象的操作
									Python
							 									Unit Testing
							 									Testing
							 
Python 当te coro在睡眠超时之前完成时，如何清理coro中的asyncio.sleep（）
									Python
							 
Python ROI中人脸中心的检测
									Python
							 									Opencv
							 
Python请求不返回与浏览器请求/cURL相同的头
									Python
							 									Google Chrome
							 									Curl
							 
Python 检测静止圆列表是否与同一平面内沿直线从起点到终点移动的另一个圆相交的算法
									Python
							 									Math
							 									Geometry
							 
Python 3.5可以'；无法解码韩元（货币）符号？
									Python
							 
Python 如何将foreignkey字段更改回null？
									Python
							 									Django
							 									Database
							 
Python 将数据从一个excel工作表传输到另一个excel工作表
									Python
							 
Python 从预先存在的列表VB.Net生成对象属性列表
									Python
							 									Vb.net
							 									Linq
							 
Python 使用按钮更改问题
									Python
							 									Button
							 									Tkinter
							 
python更新未在终端上显示
									Python
							 
Python 无需额外函数调用的动态字典值
									Python
							 									Dictionary
							 
Python 按特定值填充数据帧中缺少的值
									Python
							 									Pandas
							 									Dataframe
							 
Python 熊猫数据类型（'；O'；）到日期格式
									Python
							 									Pandas
							 									Date
							 									Datetime
							 
python numba变量$116setup_with.2未定义
									Python
							 
Python在目录中搜索文件名
									Python
							 									String
							 
Python 如何为LocallyConnected2D层使用权重规范化包装器
									Python
							 									Tensorflow
							 									Keras
							 
Python 如何检查一个月是否有31天
									Python
							 
Python 一种将数据从字符串发送到变量（每200个位置）的方法-For循环
									Python
							 									String
							 									For Loop
							 									Replace
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Frameworks
Iis
Computer Vision
Acumatica
Kubernetes
Botframework
Ruby On Rails 3.1
Asp.net
Ant
Workflow
Graph
Angular
Ocaml
Compression
Cmake
Pip
Codenameone
Dojo
Ftp
Twig
Big O
Vagrant
Ember.js
Parallel Processing
Hadoop
Templates
Android
Snowflake Cloud Data Platform
Google Chrome
Logic
Mqtt
Heroku
Tcp
Reporting Services
Powerbi
Primefaces
Office Js
Mediawiki
Google Cloud Storage
Installation
Office365
Inno Setup
Mips
Windows 7
Umbraco
Amazon Cloudformation
Zend Framework
Ibm Midrange
Memory
Aframe
Command Line
Azure Functions
Html5 Canvas
Sed
Here Api
Network Programming
Mapping
Caching
Neural Network
Playframework
Windows 8
Printing
Selenium Webdriver
Apache2
Visual Studio 2010
Winforms
Amazon Redshift
Actionscript
Google Cloud Platform
Log4j
Configuration
Doxygen
Instagram
Proxy
Process
Vuejs2
Sharepoint
Imagemagick
Linux
Soap
Combobox
Osgi
Oracle11g
Google Apps Script
Certificate
Cocoa Touch
Scripting
Apache Kafka
Firebase
Image Processing
Jqgrid
Ibm Mq
Orchardcms
Memory Management
Google Maps Api 3
Fiware
Appium
Sml
Kdb
Cloud
Google Cloud Dataflow
Salesforce
Menu
Hybris
Reflection
Drupal 7
Dns
Jms
Vhdl
Tableau Api
Google Api
Internationalization
Ios
Solr
.htaccess
Facebook
Sql Server 2012
Ssl
Automated Tests
Ms Office
Windows Phone 7
Sql Server
Quickbooks
Xamarin
Character Encoding
Streaming
Checkbox
Arm
Gradle
Com
Codeigniter
Nlp
Youtube
Google Plus
Asynchronous
Directory
Testng
Asp.net Web Api
C# 3.0
Iis 7
Geometry
Sdk
Terminal
Interface
Gps
Abap
Antlr4
Swagger
Rally
Swing
System Verilog
Apache Flink
Entity Framework Core
Merge
Sonarqube
Emacs
Java Me
Netlogo
Asp.net Core Mvc
Drools
Crystal Reports
Rss
Python 2.7
Vue.js
Wpf
Node.js
Open Source
Matplotlib
Signalr
Subsonic
Google Colaboratory
Filesystems
Gwt
Redirect
Java
Discord.js
Azure Active Directory
Zend Framework2
Silverlight
Jquery
Deployment
Ruby On Rails 3.2
Asp Classic
Stored Procedures
Selenium
Safari
Visual Studio 2008
Post
Android Ndk
Chef Infra
Web
Dart
Openlayers 3
Leaflet
Video Streaming
Listview
Material Ui
Google Calendar Api
Docusignapi
Single Sign On
Lucene


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网