Python 从表中提取行_Python_Xpath_Lxml

Python 从表中提取行

python xpath

Python 从表中提取行,python,xpath,lxml,Python,Xpath,Lxml,我试图从下表中提取具有相应单元格的行： <table border="0" cellspacing="1" cellpading="3" width="100%"> <tr bgcolor="#505050"> <td><b></b></td> <td colspan="2" align="center" class="white"><b>Last Day</b></

我试图从下表中提取具有相应单元格的行：

<table border="0" cellspacing="1" cellpading="3" width="100%">
<tr bgcolor="#505050">
    <td><b></b></td>
    <td colspan="2" align="center" class="white"><b>Last Day</b></td>
    <td colspan="2" align="center" class="white"><b>Last Week</b></td>
</tr>
<tr bgcolor="#505050">
    <td class="white"><b>Race</b></td>
    <td align="center" class="white"><b>Killed Players</b></td>
    <td align="center" class="white"><b>Killed by Players</b></td>
    <td align="center" class="white"><b>Killed Players</b></td>
    <td align="center" class="white"><b>Killed by Players</b></td>
</tr>
<tr bgcolor="#F1E0C6">
    <td>A</td>
    <td align="right">0</td>
    <td align="right">3</td>
    <td align="right">0</td>
    <td align="right">13</td>
</tr>
<tr bgcolor="#D4C0A1">
    <td>B</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">7</td>
</tr>
<tr bgcolor="#F1E0C6">
    <td>C</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">1</td>
</tr>
<tr bgcolor="#D4C0A1">
    <td>D</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">7</td>
</tr>
<tr bgcolor="#505050">
    <td class=white><b>Total</b></td>
    <td align="right" class="white"><b>210</b></td>
    <td align="right" class="white"><b>1060458</b></td>
    <td align="right" class="white"><b>1132</b></td>
    <td align="right" class="white"><b>5585115</b></td>
</tr>

但是，输出仍然包括第一行空单元格和最后一天/周单元格，如下所示：

['', 'Last Day', 'Last Week']
['A', '0', '3', '0', '13']
['B', '0', '0', '2', '0']
['C', '0', '3', '0', '5']

怎样才能摆脱它呢？

只要把
tr
改成：

tr[not(contains(@bgcolor, "505050"))]

from lxml import html

HTML = """<table border="0" cellspacing="1" cellpading="3" width="100%">
<tr bgcolor="#505050">
    <td><b></b></td>
    <td colspan="2" align="center" class="white"><b>Last Day</b></td>
    <td colspan="2" align="center" class="white"><b>Last Week</b></td>
</tr>
<tr bgcolor="#505050">
    <td class="white"><b>Race</b></td>
    <td align="center" class="white"><b>Killed Players</b></td>
    <td align="center" class="white"><b>Killed by Players</b></td>
    <td align="center" class="white"><b>Killed Players</b></td>
    <td align="center" class="white"><b>Killed by Players</b></td>
</tr>
<tr bgcolor="#F1E0C6">
    <td>A</td>
    <td align="right">0</td>
    <td align="right">3</td>
    <td align="right">0</td>
    <td align="right">13</td>
</tr>
<tr bgcolor="#D4C0A1">
    <td>B</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">7</td>
</tr>
<tr bgcolor="#F1E0C6">
    <td>C</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">1</td>
</tr>
<tr bgcolor="#D4C0A1">
    <td>D</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">7</td>
</tr>
<tr bgcolor="#505050">
    <td class=white><b>Total</b></td>
    <td align="right" class="white"><b>210</b></td>
    <td align="right" class="white"><b>1060458</b></td>
    <td align="right" class="white"><b>1132</b></td>
    <td align="right" class="white"><b>5585115</b></td>
</tr>"""

tree = html.fromstring(HTML)
results = defaultdict

for item in tree.xpath('//table/tr[not(contains(@bgcolor, "505050"))]'):
    print item.xpath('.//td/text()')

['A', '0', '3', '0', '13']
['B', '0', '0', '0', '7']
['C', '0', '0', '0', '1']
['D', '0', '0', '0', '7']

因此您的代码应该如下所示：

tr[not(contains(@bgcolor, "505050"))]

from lxml import html

HTML = """<table border="0" cellspacing="1" cellpading="3" width="100%">
<tr bgcolor="#505050">
    <td><b></b></td>
    <td colspan="2" align="center" class="white"><b>Last Day</b></td>
    <td colspan="2" align="center" class="white"><b>Last Week</b></td>
</tr>
<tr bgcolor="#505050">
    <td class="white"><b>Race</b></td>
    <td align="center" class="white"><b>Killed Players</b></td>
    <td align="center" class="white"><b>Killed by Players</b></td>
    <td align="center" class="white"><b>Killed Players</b></td>
    <td align="center" class="white"><b>Killed by Players</b></td>
</tr>
<tr bgcolor="#F1E0C6">
    <td>A</td>
    <td align="right">0</td>
    <td align="right">3</td>
    <td align="right">0</td>
    <td align="right">13</td>
</tr>
<tr bgcolor="#D4C0A1">
    <td>B</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">7</td>
</tr>
<tr bgcolor="#F1E0C6">
    <td>C</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">1</td>
</tr>
<tr bgcolor="#D4C0A1">
    <td>D</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">0</td>
    <td align="right">7</td>
</tr>
<tr bgcolor="#505050">
    <td class=white><b>Total</b></td>
    <td align="right" class="white"><b>210</b></td>
    <td align="right" class="white"><b>1060458</b></td>
    <td align="right" class="white"><b>1132</b></td>
    <td align="right" class="white"><b>5585115</b></td>
</tr>"""

tree = html.fromstring(HTML)
results = defaultdict

for item in tree.xpath('//table/tr[not(contains(@bgcolor, "505050"))]'):
    print item.xpath('.//td/text()')

['A', '0', '3', '0', '13']
['B', '0', '0', '0', '7']
['C', '0', '0', '0', '1']
['D', '0', '0', '0', '7']

尽管如此，我还是建议使用dict（）。见：

tree = html.fromstring(HTML)
results = dict()

def unpack(data):
    return data[0], data[1:]

for item in tree.xpath('//table/tr[not(contains(@bgcolor, "505050"))]'):
    key, values = unpack(item.xpath('.//td/text()'))
    results[key] = values

print results

输出：

{
    'A': ['0', '3', '0', '13'],
    'C': ['0', '0', '0', '1'],
    'B': ['0', '0', '0', '7'],
    'D': ['0', '0', '0', '7']
}

在Python3中，不需要像上面那样使用

unpack（）

函数，您只需要更改

key，values=unpack（item.xpath（'.//td/text（）'）

key，*values=item.xpath（'.//td/text（）'））

见：

此外，如果需要，可以使用sorted（）
按字母（键）对结果进行排序：

[
  ('A', ['0', '3', '0', '13']),
  ('B', ['0', '0', '0', '7']),
  ('C', ['0', '0', '0', '1']),
  ('D', ['0', '0', '0', '7'])
]

你能发布你的预期输出吗？当然，更新了原始帖子。@随我的便。如果我的回答有助于你解决问题，请不要忘记接受我的回答：）