Python BS4获取XML标记变量
我正在使用bs4进行web抓取,并试图从这行xml中获取标题和颜色标记Python BS4获取XML标记变量,python,xml,python-3.x,beautifulsoup,Python,Xml,Python 3.x,Beautifulsoup,我正在使用bs4进行web抓取,并试图从这行xml中获取标题和颜色标记 输出结果将是一个dict,大致如下{'title':'approve','color':'000000'} xml所在的页面 我已经编写了这个函数,它绝对不是有效的,但是我希望数据帧的标题是标题的结果,而不是手动输入的值。因此,而不是GID1它将读Approve或Obama或任何标题的结果 def rcp_poll_data(xml): soup=bs(xml,"xml") dates =
输出结果将是一个dict,大致如下{'title':'approve','color':'000000'}
xml所在的页面
我已经编写了这个函数,它绝对不是有效的,但是我希望数据帧的标题是标题
的结果,而不是手动输入的值。因此,而不是GID1
它将读Approve
或Obama
或任何标题的结果
def rcp_poll_data(xml):
soup=bs(xml,"xml")
dates = soup.find('series')
datesval = dates.findChildren(string=True)
del datesval[-7:]
obama = soup.find('graph', { "gid" : "1" })
obamaval = obama.findChildren(string=True)
romney = soup.find('graph', { "gid" : "2" })
romneyval = romney.findChildren(string=True)
result = pd.DataFrame({'date':pd.to_datetime(datesval), 'GID1':obamaval, 'GID2':romneyval})
return result
我正在使用bs4,并努力找到合适的术语,使我达到目的。这些是我试图隔离的标签,还是元素,还是属性
这不是一件专业的事情,我只是为了好玩而玩儿。所以任何能让我稍微靠近一点的帮助都会很好。(我使用的是python 3)找到graph节点后,只需拉动属性即可:
这将给你:
{'color': '#000000', 'title': 'Approve'}
该死,我就知道这很简单。感谢PadraicNo的帮助,很明显,对于罗姆尼,我们只是洗刷和重复。
{'color': '#000000', 'title': 'Approve'}