Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python:查找包含字符串的所有URL_Python_Url - Fatal编程技术网

Python:查找包含字符串的所有URL

Python:查找包含字符串的所有URL,python,url,Python,Url,我试图在某个域中查找名称中包含某个字符串的所有页面。例如: www.example.com/section/subsection/406751371-some-string www.example.com/section/subsection/235824297-some-string www.example.com/section/subsection/146783214-some-string 最好的方法是什么 “-some string”前面的数字可以是任意9位数字。我可以编写一个脚

我试图在某个域中查找名称中包含某个字符串的所有页面。例如:

www.example.com/section/subsection/406751371-some-string 
www.example.com/section/subsection/235824297-some-string 
www.example.com/section/subsection/146783214-some-string
最好的方法是什么


“-some string”前面的数字可以是任意9位数字。我可以编写一个脚本,循环遍历所有可能的9位数字,并尝试访问生成的url,但我一直认为应该有一种更有效的方法来实现这一点,特别是因为我知道,总的来说,只有大约1000个可能的页面以该字符串结尾

我了解您的情况,前面的数值-some string是该网站的一种对象id(例如,这个问题的id是39594926,url是stackoverflow.com/questions/39594926/python查找所有包含字符串的url)

我不认为有办法找到所有有效的数字,除非你有一个网站的列表(或家长)页面列出了所有这些数字。再次以Stackoverflow为例,在问题列表页面中,您将看到所有这些问题ID


如果你能提供给我这个网站,我可以看看,试着找出这些数字的“模式”。对于一些简单的网站,这个数字只是标识对象(可能是用户、问题或其他任何内容)的一个增量。

如果这些文章都链接到一个页面上,您可以解析这个索引页面的html,因为所有链接都将包含在href标记中。

重复url并在每个url检查中:
url.endswith('-some string')
@MosesKoledoye听起来他可能没有一个明确的列表来迭代过多你已经有了pyhton脚本或者你只有一个文本文件?不,网站上没有特定URL的列表。我确实想过在谷歌上查找它们(然后从搜索结果中提取出来).但是有更好的方法吗?@riccardoperaglia我没有脚本,我甚至不确定我需要的是构建一个爬虫程序(或者可能不是?)。我以前(使用scrapy)浏览过网站但我有一个url列表或起始url。现在我没有url列表,我知道它们存在,但除非我通过所有可能的数字组合,否则我不知道如何找到实际的url。谢谢,但确实没有模式。这是一个新闻网站。每周他们都会发布随机数量的文章。每一篇新文章每周他们都会发布一个以“-some string”结尾的数字,因此分配给这些文章的数字可以是任何数字。