Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/292.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在Python中使用BeautifulSoup提取表标记值?_Python_Dataframe_Html Table_Beautifulsoup_Html Parsing - Fatal编程技术网

在Python中使用BeautifulSoup提取表标记值?

在Python中使用BeautifulSoup提取表标记值?,python,dataframe,html-table,beautifulsoup,html-parsing,Python,Dataframe,Html Table,Beautifulsoup,Html Parsing,我正试图编写一个Python脚本,从位于该页面的表中提取一些标记值: 我已经包括了HTML源代码的截图,但是我不知道如何提取第6、7、8和9列的价格数据。下面是我已经编写的代码 导入请求 作为pd进口熊猫 从bs4导入BeautifulSoup url='1〕https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/' response=requests.get(url) soup=BeautifulS

我正试图编写一个Python脚本,从位于该页面的表中提取一些标记值:

我已经包括了HTML源代码的截图,但是我不知道如何提取第6、7、8和9列的价格数据。下面是我已经编写的代码

导入请求
作为pd进口熊猫
从bs4导入BeautifulSoup
url='1〕https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/'
response=requests.get(url)
soup=BeautifulSoup(response.content'html.parser')
table1=soup.find_all('table',class_u='sd table'))
#将前几列写入文本文件
将open('examplefile.txt','w')作为r:
对于表1中的行,查找所有('tr'):
对于行中的单元格,查找所有('td'):
r、 写入(cell.text.ljust(5))

r、 write('\n')
Pandas很可能可以自己处理这个问题。然后,可以在生成的帧中清理数据类型等。返回一个匹配数组-大致思路如下:

import pandas as pd

url = 'https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/'

dfs = pd.read_html(url, attrs={'class':'sd-table'})

print dfs[0]

希望有帮助

表值似乎嵌入了一个JSON字符串中,可以通过以下方式获取。然后,我们可以通过指示国家/地区的
“regional”
键来获得该值

soup = find_all ('table', {'class':'sd-table'})
它有点复杂,但至少它得到了我们放入数据帧中的值,如下所示:

import requests
from bs4 import BeautifulSoup
import json
import pandas as pd
import os
import numpy as np

# force maximum dataframe column width
pd.set_option('display.max_colwidth', 0)

url = 'https://azure.microsoft.com/en-us/pricing/details/virtual-machines/windows/'

response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
tables = soup.find_all('div', {'class': 'row row-size3 column'})

region = 'us-west-2' # Adjust your region here

def parse_table_as_dataframe(table):
    data = []
    header = []
    c5 = c6 = c7 = c8 = []

    rows = []
    columns = []

    name = table.h3.text

    try:
        # This part gets the first word in each column header so the table
        # fits reasonably in the display, adjust to your preference 
        header = [h.text.split()[0].strip() for h in table.thead.find_all('th')][1::]
    except AttributeError:
        return 'N/A'

    for row in table.tbody.find_all('tr'):
        for c in row.find_all('td')[1::]:
            if c.text.strip() not in (u'', u'$-') :
                if 'dash' in c.text.strip():
                    columns.append('-') # replace "‐ &dash:" with a `-`
                else:
                    columns.append(c.text.strip())  
            else:
                try:
                    data_text = c.span['data-amount']
                    # data = json.loads(data_text)['regional']['asia-pacific-southeast']
                    data = json.loads(data_text)['regional'][region]
                    columns.append(data)
                except (KeyError, TypeError):
                    columns.append('N/A')



    num_rows = len(table.tbody.find_all('tr'))
    num_columns = len(header)

    # For debugging
    # print(len(columns), columns)
    # print(num_rows, num_columns)

    df = pd.DataFrame(np.array(columns).reshape(num_rows, num_columns), columns=header)
    return df

for n, table in enumerate(tables):
    print(n, table.h3.text)
    print(parse_table_as_dataframe(table))
获取24个数据帧,页面中的每个表对应一个数据帧:

0 B-series
  Instance Core        RAM Temporary    Pay      One    Three        3
0  B1S      1    1.00 GiB   2 GiB     0.017  0.01074  0.00838  0.00438
1  B2S      2    4.00 GiB   8 GiB     0.065  0.03483  0.02543  0.01743
2  B1MS     1    2.00 GiB   4 GiB     0.032  0.01747  0.01271  0.00871
3  B2MS     2    8.00 GiB   16 GiB    0.122  0.06165  0.04289  0.03489
4  B4MS     4    16.00 GiB  32 GiB    0.229  0.12331  0.08579  0.06979
5  B8MS     8    32.00 GiB  64 GiB    0.438  0.24661  0.17157  0.13957

...

...

23 H-series
  Instance Core         RAM  Temporary    Pay      One    Three        3
0  H8       8    56.00 GiB   1,000 GiB  1.129  0.90579  0.72101  0.35301
1  H16      16   112.00 GiB  2,000 GiB  2.258  1.81168  1.44205  0.70605
2  H8m      8    112.00 GiB  1,000 GiB  1.399  1.08866  0.84106  0.47306
3  H16m     16   224.00 GiB  2,000 GiB  2.799  2.17744  1.68212  0.94612
4  H16mr    16   224.00 GiB  2,000 GiB  3.012  2.32162  1.77675  1.04075
5  H16r     16   112.00 GiB  2,000 GiB  2.417  1.91933  1.51267  0.77667

你好,谢谢你的帮助。我运行了该代码,不幸的是所有的价格仍然显示为空白…有没有任何方法可以提取这些值?谢谢你的帮助!很抱歉,我使用了错误的打印语法,请使用更新的代码重试。哦,我注意到您需要4列,但我只有3列。。。我也需要解决这个问题!在我的Jupyter笔记本中,这些值不会显示为上面发布的表。在我的例子中,它显示了三个标题,然后是下面的所有值,而不是一个表格。有什么想法吗?再次感谢你的帮助!现收现付保留一年保留三年,然后保留Neath下的所有值抱歉,我正在努力用python3语法编写答案,但我只有python2。你会在那里看到他们的!虽然这个代码片段可能是解决方案,但它确实有助于提高文章的质量。请记住,您将在将来回答读者的问题,这些人可能不知道您的代码建议的原因。