Python 如何选择网站中的所有URL(不包括给定类的URL)?

Python 如何选择网站中的所有URL(不包括给定类的URL)?,python,regex,xpath,Python,Regex,Xpath,我想使用正则表达式从我的Twitter追随者页面中选择所有URL。如果我使用https://twitter\.com/*它将选择网站中与此模式匹配的所有URL,但我想排除“关注用户”部分的用户。此URL位于whotfollow类中。所以,我的问题是:我可以使用XPath、正则表达式或两者的组合来选择所有匹配前面模式但不包括Python中WhotFollow类中的URL的URL吗? 谢谢 Dani如果我理解正确,您可以使用这样的xpath,使用标记而不是classwhotfollow并使用以开头的

我想使用正则表达式从我的Twitter追随者页面中选择所有URL。如果我使用
https://twitter\.com/*
它将选择网站中与此模式匹配的所有URL,但我想排除“关注用户”部分的用户。此URL位于whotfollow类中。所以,我的问题是:我可以使用XPath、正则表达式或两者的组合来选择所有匹配前面模式但不包括Python中WhotFollow类中的URL的URL吗? 谢谢


Dani

如果我理解正确,您可以使用这样的xpath,使用
标记
而不是class
whotfollow
并使用以
开头的urlhttps://twitter.com/
。然后它获取href的内容

//a[not(@class="WhoToFollow") and starts-with(@href, "https://twitter.com/")]/@href

你能提供一份吗?谢谢斯特里比雪夫。我不知道在这种情况下如何提供MVCE。我还没有编写任何代码,只是在想如何才能实现我的目标。很高兴能提供帮助!祝你好运你熟悉scrapy吗?也许你可以看看这个没问题!我感谢你的帮助。干杯