在Python中使用BeautifulSoup提取表标记值?
我正试图编写一个Python脚本,从位于该页面的表中提取一些标记值: 我已经包括了HTML源代码的截图,但是我不知道如何提取第6、7、8和9列的价格数据。下面是我已经编写的代码在Python中使用BeautifulSoup提取表标记值?,python,dataframe,html-table,beautifulsoup,html-parsing,Python,Dataframe,Html Table,Beautifulsoup,Html Parsing,我正试图编写一个Python脚本,从位于该页面的表中提取一些标记值: 我已经包括了HTML源代码的截图,但是我不知道如何提取第6、7、8和9列的价格数据。下面是我已经编写的代码 导入请求 作为pd进口熊猫 从bs4导入BeautifulSoup url='1〕https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/' response=requests.get(url) soup=BeautifulS
导入请求
作为pd进口熊猫
从bs4导入BeautifulSoup
url='1〕https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/'
response=requests.get(url)
soup=BeautifulSoup(response.content'html.parser')
table1=soup.find_all('table',class_u='sd table'))
#将前几列写入文本文件
将open('examplefile.txt','w')作为r:
对于表1中的行,查找所有('tr'):
对于行中的单元格,查找所有('td'):
r、 写入(cell.text.ljust(5))
r、 write('\n')
Pandas很可能可以自己处理这个问题。然后,可以在生成的帧中清理数据类型等。返回一个匹配数组-大致思路如下:
import pandas as pd
url = 'https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/'
dfs = pd.read_html(url, attrs={'class':'sd-table'})
print dfs[0]
希望有帮助 表值似乎嵌入了一个JSON字符串中,可以通过以下方式获取。然后,我们可以通过指示国家/地区的
“regional”
键来获得该值
soup = find_all ('table', {'class':'sd-table'})
它有点复杂,但至少它得到了我们放入数据帧中的值,如下所示:
import requests
from bs4 import BeautifulSoup
import json
import pandas as pd
import os
import numpy as np
# force maximum dataframe column width
pd.set_option('display.max_colwidth', 0)
url = 'https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
tables = soup.find_all('div', {'class': 'row row-size3 column'})
region = 'us-west-2' # Adjust your region here
def parse_table_as_dataframe(table):
data = []
header = []
c5 = c6 = c7 = c8 = []
rows = []
columns = []
name = table.h3.text
try:
# This part gets the first word in each column header so the table
# fits reasonably in the display, adjust to your preference
header = [h.text.split()[0].strip() for h in table.thead.find_all('th')][1::]
except AttributeError:
return 'N/A'
for row in table.tbody.find_all('tr'):
for c in row.find_all('td')[1::]:
if c.text.strip() not in (u'', u'$-') :
if 'dash' in c.text.strip():
columns.append('-') # replace "‐ &dash:" with a `-`
else:
columns.append(c.text.strip())
else:
try:
data_text = c.span['data-amount']
# data = json.loads(data_text)['regional']['asia-pacific-southeast']
data = json.loads(data_text)['regional'][region]
columns.append(data)
except (KeyError, TypeError):
columns.append('N/A')
num_rows = len(table.tbody.find_all('tr'))
num_columns = len(header)
# For debugging
# print(len(columns), columns)
# print(num_rows, num_columns)
df = pd.DataFrame(np.array(columns).reshape(num_rows, num_columns), columns=header)
return df
for n, table in enumerate(tables):
print(n, table.h3.text)
print(parse_table_as_dataframe(table))
获取24个数据帧,页面中的每个表对应一个数据帧:
0 B-series
Instance Core RAM Temporary Pay One Three 3
0 B1S 1 1.00 GiB 2 GiB 0.017 0.01074 0.00838 0.00438
1 B2S 2 4.00 GiB 8 GiB 0.065 0.03483 0.02543 0.01743
2 B1MS 1 2.00 GiB 4 GiB 0.032 0.01747 0.01271 0.00871
3 B2MS 2 8.00 GiB 16 GiB 0.122 0.06165 0.04289 0.03489
4 B4MS 4 16.00 GiB 32 GiB 0.229 0.12331 0.08579 0.06979
5 B8MS 8 32.00 GiB 64 GiB 0.438 0.24661 0.17157 0.13957
...
...
23 H-series
Instance Core RAM Temporary Pay One Three 3
0 H8 8 56.00 GiB 1,000 GiB 1.129 0.90579 0.72101 0.35301
1 H16 16 112.00 GiB 2,000 GiB 2.258 1.81168 1.44205 0.70605
2 H8m 8 112.00 GiB 1,000 GiB 1.399 1.08866 0.84106 0.47306
3 H16m 16 224.00 GiB 2,000 GiB 2.799 2.17744 1.68212 0.94612
4 H16mr 16 224.00 GiB 2,000 GiB 3.012 2.32162 1.77675 1.04075
5 H16r 16 112.00 GiB 2,000 GiB 2.417 1.91933 1.51267 0.77667
你好,谢谢你的帮助。我运行了该代码,不幸的是所有的价格仍然显示为空白…有没有任何方法可以提取这些值?谢谢你的帮助!很抱歉,我使用了错误的打印语法,请使用更新的代码重试。哦,我注意到您需要4列,但我只有3列。。。我也需要解决这个问题!在我的Jupyter笔记本中,这些值不会显示为上面发布的表。在我的例子中,它显示了三个标题,然后是下面的所有值,而不是一个表格。有什么想法吗?再次感谢你的帮助!现收现付保留一年保留三年,然后保留Neath下的所有值抱歉,我正在努力用python3语法编写答案,但我只有python2。你会在那里看到他们的!虽然这个代码片段可能是解决方案,但它确实有助于提高文章的质量。请记住,您将在将来回答读者的问题,这些人可能不知道您的代码建议的原因。