Python 简单的动态网页抓取-无需BeautifulSoup_Python_Dynamic_Web_Screen Scraping

Python 简单的动态网页抓取-无需BeautifulSoup

python dynamic web

Python 简单的动态网页抓取-无需BeautifulSoup,python,dynamic,web,screen-scraping,Python,Dynamic,Web,Screen Scraping,我正忙着抓取一个动态网站，以便获得一个URL，每次游戏更新时，我都可以用它下载服务器软件该网站是“http://craftstud.io/builds而上面写着“服务器XX.X.X.X”的地方正是我想要抓取的地方我真的不想让Javascript和外部模块变得复杂，所以如果有一个简单的解决方案，我会洗耳恭听我一辈子也不能安装第三方模块，比如BeautifulSoup（愚蠢的Windows）谢谢大家

我正忙着抓取一个动态网站，以便获得一个URL，每次游戏更新时，我都可以用它下载服务器软件

该网站是“http://craftstud.io/builds而上面写着“服务器XX.X.X.X”的地方正是我想要抓取的地方

我真的不想让Javascript和外部模块变得复杂，所以如果有一个简单的解决方案，我会洗耳恭听

我一辈子也不能安装第三方模块，比如BeautifulSoup（愚蠢的Windows）

谢谢大家

也就是说，如果你可以通过pip安装，你会发现它在未来有很多用途。（请确保您使用

pip-install-BeautifulSoup4

而不是

pip-install-BeautifulSoup

我几天前刚刚在windows机器上安装了一个副本。）

我相信有时不安装第三方模块是有正当理由的；在您的情况下，您可以学习如何在windows中使用easy_install或pip。这可以很容易地通过谷歌搜索完成，而且你将不再局限于标准库。Windows有什么问题吗？您可以使用pip/easy_install安装任何模块，也可以将其放在项目目录中。使用标准库解析html比安装第三方模块复杂得多。试着去做，如果你陷入困境，回来寻求帮助。@dm03514-是的，这是有正当理由的。我正忙于在Windows for Linux上编程，最终可能会在多个Linux VP上分发脚本。因此，我不想总是对所有试图找到丢失模块的服务器进行故障排除。嘿，谢谢你的示例。然而，我没有使用完全相同的方法。最后我用字符串加“*\”替换了re.search，“*\”表示任意字符，*表示连续重复，然后\表示在找到之后的文本时停止重复。谢谢你！

>>> import re
>>> import urllib2
>>> html = urllib2.urlopen("http://craftstud.io/builds").read()
>>> re.search(r"Server \d+\.\d+\.\d+\.\d+", html).group()
'Server 0.1.24.1'