Javascript 如何清理使用django的网站_Javascript_Python_Html_Django_Web Scraping

Javascript 如何清理使用django的网站

javascript python html django web-scraping

Javascript 如何清理使用django的网站,javascript,python,html,django,web-scraping,Javascript,Python,Html,Django,Web Scraping,我想创建一个机器人来使用以下地址刮取网站：但问题是当我想从这个网站获取数据时我意识到这个网站正在使用django，因为他们正在使用像{if group_name}}等短语有一个使用这种方法创建的循环，它创建表行和我想要的信息就在那里当我使用python时，我下载了找不到的html代码除了“{code}}”之外的任何内容，但是当我使用chrome开发工具（inspect）和console时，我可以看到我想要的表中的内容我怎样才能像chrome工具一样获得保存该表内容的html代码

我想创建一个机器人来使用以下地址刮取网站：

但问题是当我想从这个网站获取数据时我意识到这个网站正在使用django，因为他们正在使用像{if group_name}}等短语
有一个使用这种方法创建的循环，它创建表行和我想要的信息就在那里
当我使用python时，我下载了找不到的html代码除了“{code}}”之外的任何内容，但是当我使用chrome开发工具（inspect）和console时，我可以看到我想要的表中的内容
我怎样才能像chrome工具一样获得保存该表内容的html代码从这个网站上获取我想要的信息
我获取代码的方法是使用python：

import urllib.request fp = urllib.request.urlopen("https://1xxpers100.mobi/en/line/") mybytes = fp.read() mystr = mybytes.decode("utf8") fp.close()

这应该适用于您想要的：

import requests from bs4 import BeautifulSoup r = requests.get('https://1xxpers100.mobi/en/line/') soup = BeautifulSoup(r.content, 'lxml') print(soup.encode("utf-8"))
这里
'lmxl'
是我使用的，因为它适用于我测试它的站点。如果您在这方面有问题，请尝试另一个解析器
另一个问题是，有一个默认情况下无法识别的字符。因此，请使用
utf-8
额外信息
这与django无关。HTML具有所谓的“树”状结构。其中，每组标记都是其内部所有子标记的父标记。你只是在树上读得不够深

我觉得您仍然在父对象中。您是否尝试过遍历返回
{{code}}
的对象的所有子对象？你用什么python库来抓取这个网站？我不知道怎么做！！！我怎样才能得到这个对象的子对象？你能把你用来抓取站点和输出的代码添加到你的帖子中吗？如果你在查看HTML时得到了这些，这根本不是Django，而是一个前端框架-可能是Angular。我编辑了帖子谢谢你的解释，但它仍然没有work@amirhoseinmajidi现在试试看，将
endcode
部分添加到
print
行相同的结果：（（如果您访问该页面，您可以看到有一个元素具有class=“events\uuu row”，但如果您在检查页面中尝试，则当我获取具有var item=document.getElementsByClassName（“events\uu row”）的元素时会有所不同）；