Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 当网站链接';我们不是按数字排序的_Python 3.x_Beautifulsoup_Scrapy - Fatal编程技术网

Python 3.x 当网站链接';我们不是按数字排序的

Python 3.x 当网站链接';我们不是按数字排序的,python-3.x,beautifulsoup,scrapy,Python 3.x,Beautifulsoup,Scrapy,使用beautifulsoup可以轻松获取遵循特定数字顺序的URL。但是,如果URL链接是以其他方式组织的,例如https://mongolia.mid.ru/en_US/novosti其中有类似的文章 https://mongolia.mid.ru/en_US/novosti/-/asset_publisher/hfCjAfLBKGW0/content/24-avgusta-sostoalas-vstreca-crezvycajnogo-i-polnomocnogo-posla-rossijs

使用beautifulsoup可以轻松获取遵循特定数字顺序的URL。但是,如果URL链接是以其他方式组织的,例如
https://mongolia.mid.ru/en_US/novosti
其中有类似的文章

https://mongolia.mid.ru/en_US/novosti/-/asset_publisher/hfCjAfLBKGW0/content/24-avgusta-sostoalas-vstreca-crezvycajnogo-i-polnomocnogo-posla-rossijskoj-federacii-v-mongolii-i-k-azizova-s-ministrom-energetiki-mongolii-n-tavinbeh?inheritRedirect=false&redirect=https%3A%2F%2Fmongolia.mid.ru%3A443%2Fen_US%2Fnovosti%3Fp_p_id%3D101_INSTANCE_hfCjAfLBKGW0%26p\U生命周期%3D0%26p\U状态%3Dnormal%26p\U模式%3Dview%26p\U列id%3Dcolumn-1%26p\U列计数%3D1

像这样的网站很奇怪,因为一旦你第一次打开链接,你就有了进入下一页文章的按钮。但是一旦你点击那里,现在你有了
Previous
Next
按钮,它是如此杂乱无章


如何从这些网站获取所有新闻文章(
https://mongolia.mid.ru/en_US/novosti
https://mongolia.mid.ru/ru_RU/
)?

似乎
https://mongolia.mid.ru/ru_RU/
只需重定向到
https://mongolia.mid.ru/en_US/novosti
。那么为什么不从后者开始呢

要浏览所有新闻,只需使用
Next
按钮中的链接浏览页面即可。 如果您想让它更加程序化,只需检查查询参数中的差异,您就会看到
\u 101\u INSTANCE\u hfcjaffkgw0\u cur
被设置为实际页码(从1开始)