Python 3.x 当网站链接';我们不是按数字排序的
使用beautifulsoup可以轻松获取遵循特定数字顺序的URL。但是,如果URL链接是以其他方式组织的,例如Python 3.x 当网站链接';我们不是按数字排序的,python-3.x,beautifulsoup,scrapy,Python 3.x,Beautifulsoup,Scrapy,使用beautifulsoup可以轻松获取遵循特定数字顺序的URL。但是,如果URL链接是以其他方式组织的,例如https://mongolia.mid.ru/en_US/novosti其中有类似的文章 https://mongolia.mid.ru/en_US/novosti/-/asset_publisher/hfCjAfLBKGW0/content/24-avgusta-sostoalas-vstreca-crezvycajnogo-i-polnomocnogo-posla-rossijs
https://mongolia.mid.ru/en_US/novosti
其中有类似的文章
https://mongolia.mid.ru/en_US/novosti/-/asset_publisher/hfCjAfLBKGW0/content/24-avgusta-sostoalas-vstreca-crezvycajnogo-i-polnomocnogo-posla-rossijskoj-federacii-v-mongolii-i-k-azizova-s-ministrom-energetiki-mongolii-n-tavinbeh?inheritRedirect=false&redirect=https%3A%2F%2Fmongolia.mid.ru%3A443%2Fen_US%2Fnovosti%3Fp_p_id%3D101_INSTANCE_hfCjAfLBKGW0%26p\U生命周期%3D0%26p\U状态%3Dnormal%26p\U模式%3Dview%26p\U列id%3Dcolumn-1%26p\U列计数%3D1
像这样的网站很奇怪,因为一旦你第一次打开链接,你就有了进入下一页文章的按钮。但是一旦你点击那里,现在你有了Previous
或Next
按钮,它是如此杂乱无章
如何从这些网站获取所有新闻文章(
https://mongolia.mid.ru/en_US/novosti
或https://mongolia.mid.ru/ru_RU/
)?似乎https://mongolia.mid.ru/ru_RU/
只需重定向到https://mongolia.mid.ru/en_US/novosti
。那么为什么不从后者开始呢
要浏览所有新闻,只需使用Next
按钮中的链接浏览页面即可。
如果您想让它更加程序化,只需检查查询参数中的差异,您就会看到\u 101\u INSTANCE\u hfcjaffkgw0\u cur
被设置为实际页码(从1开始)