使用Python从网页中删除一个li_Python

使用Python从网页中删除一个li

python

使用Python从网页中删除一个li,python,Python,我对python和web抓取非常陌生。我正试图从jetbrains网站上获取intellij的版本号。我正在尝试使用xpath获取构建编号。 xpath/*[@id=“download block”]/section[1]/div/div/div[1]/ul[1]/li[2]/text（）[3] 我引用/使用了本文中的代码：运行代码后，我返回[] 我用OP代码尝试了一下，返回了相同的结果。我已经能够使用美丽的汤打印出整个页面，但我只需要构建编号如果有任何帮助或踢向正确的方向，我们将不胜

我对python和web抓取非常陌生。我正试图从jetbrains网站上获取intellij的版本号。我正在尝试使用xpath获取构建编号。 xpath/*[@id=“download block”]/section[1]/div/div/div[1]/ul[1]/li[2]/text（）[3]

我引用/使用了本文中的代码：

运行代码后，我返回[] 我用OP代码尝试了一下，返回了相同的结果。我已经能够使用美丽的汤打印出整个页面，但我只需要构建编号

如果有任何帮助或踢向正确的方向，我们将不胜感激。谢谢

Jetbrains不支持浏览器禁用Javascript，因为数据是从其他服务器获取的。要解决此问题，我们可以直接从该网站下载数据。

这不起作用，因为该网站是动态的，并且chromium中禁用了Javascript，您可以通过打印HTML页面的文本来验证这一点。感谢您提供的信息。什么会从网页上刮取版本号？

   from requests_html import HTMLSession
   session = HTMLSession()

   r = session.get('https://www.jetbrains.com/idea/download/#section=linux')
   r.html.render(sleep=0.1)
   item = r.html.xpath('//*[@id="download-block"]/section[1]/div/div/div[1]/ul[1]/li[2]/text()[3]')

   print(item)

import requests

r = requests.get(
    'https://data.services.jetbrains.com/products/releases?code=IIU&latest=true&type=release',
    headers={'authority': 'data.services.jetbrains.com',
             'accept': 'application/json',
             'origin': 'https://www.jetbrains.com',
             'sec-fetch-site': 'same-site', 'sec-fetch-mode': 'cors',
             'referer': 'https://www.jetbrains.com/idea/download/'}
)

print(r.json()['IIU'][0]['build'])