如何获取隐藏的输入';通过使用python实现的值?
如何从html页面获取输入值 像 塔克斯如何获取隐藏的输入';通过使用python实现的值?,python,python-2.7,urllib2,findall,Python,Python 2.7,Urllib2,Findall,如何从html页面获取输入值 像 塔克斯 更新1 我安装了BeautifulSoup并使用了它,但出现了一些错误 代码 错误 “汤=美汤(a) 名称错误:未定义名称“BeautifulSoup”使用re模块解析xml或html通常被认为是不好的做法。仅当您负责尝试解析的页面时,才使用它。如果不是,您的正则表达式非常复杂,或者如果有人将替换为或几乎任何其他内容,您的脚本可能会中断 是一个html解析器,它: 自动修复次要错误(未关闭的标记…) 构建DOM树 允许您浏览树,搜索具有特定属性的特定
更新1 我安装了BeautifulSoup并使用了它,但出现了一些错误 代码 错误 “汤=美汤(a)
名称错误:未定义名称“BeautifulSoup”使用
re
模块解析xml或html通常被认为是不好的做法。仅当您负责尝试解析的页面时,才使用它。如果不是,您的正则表达式非常复杂,或者如果有人将
替换为
或几乎任何其他内容,您的脚本可能会中断
是一个html解析器,它:
- 自动修复次要错误(未关闭的标记…)
- 构建DOM树
- 允许您浏览树,搜索具有特定属性的特定标记
- 可用于Python2和Python3
re
进行HTML解析
例如,假设txt
包含整个页面,则查找所有隐藏字段将非常简单:
from bs4 import BeautifulSoup
soup = BeautifulSoup(txt)
hidden_tags = soup.find_all("input", type="hidden")
for tag in hidden_tags:
# tag.name is the name and tag.value the value, simple isn't it ?
您获取隐藏输入值的方式与获取任何其他输入值的方式相同。是的,但我使用re.findall或re.search以及如何编写true patternBeautifulSoup应该是您所需要的:首先选择表单,然后选择隐藏字段。@IBRA我误解了,我以为您在谈论表单发布到的脚本,不是网页抓取脚本。@Barmar是的,我想将帖子发送到url,并从中获取信息input@IBRA在被引用的站点中有很多。。。但无论如何,请看我的编辑。我已经用你的代码片段获得了完整的标记,但我不知道如何使用它来获取我需要的数据。@deepaksen:这是一篇相当古老的文章。你确定你只是想发表评论,还是想问一个新问题,把这篇文章作为你当前研究的参考?当然我会这样做
import re , urllib , urllib2
a = urllib2.urlopen('http://www.example.com/','').read()
import re , urllib , urllib2
a = urllib2.urlopen('http://www.example.com/','').read()
soup = BeautifulSoup(a)
value = soup.find('input', {'name': 'scnt'}).get('value')
from bs4 import BeautifulSoup
soup = BeautifulSoup(txt)
hidden_tags = soup.find_all("input", type="hidden")
for tag in hidden_tags:
# tag.name is the name and tag.value the value, simple isn't it ?