Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 有没有办法找到URL文件夹?_Python_Search_Web Crawler - Fatal编程技术网

Python 有没有办法找到URL文件夹?

Python 有没有办法找到URL文件夹?,python,search,web-crawler,Python,Search,Web Crawler,我问了一个奇怪的问题,但我正在制作一个蜘蛛,我想知道有没有办法将某些URL的文件夹设置为: mysite.com/drupal mysite.com/wordpress mysite.com/abc 有什么方法可以找到此类信息吗?如果实现传统的spider,它将只遍历内容中的URL。您可以尝试在每个目录级别上检查字典或宇宙中的每个字符串,但这样做并不好 因此,简短的回答是“否”。网站通常不会公布其全部URL。您可以尝试以下几种方法: 阅读主页,并按照页面上的链接进行操作。每一

我问了一个奇怪的问题,但我正在制作一个蜘蛛,我想知道有没有办法将某些URL的文件夹设置为:

   mysite.com/drupal
   mysite.com/wordpress
   mysite.com/abc

有什么方法可以找到此类信息吗?

如果实现传统的spider,它将只遍历内容中的URL。您可以尝试在每个目录级别上检查字典或宇宙中的每个字符串,但这样做并不好


因此,简短的回答是“否”。

网站通常不会公布其全部URL。您可以尝试以下几种方法:

  • 阅读主页,并按照页面上的链接进行操作。每一个页面都指向另一个页面,该页面包含链接,等等

  • 猜猜常见的文件夹名称

  • 如果站点有robots.txt文件,则每个站点都要对其进行挖掘。你应该是一个好公民,而不是检索它禁止你检索的页面

  • 尝试获取站点的站点地图,如下所示:


  • 不,可能根本没有文件夹,只有一个程序。