Python 如何读取只有一列的某些行的html?
我试图阅读下表: 为了做到这一点,我正在使用以下代码:Python 如何读取只有一列的某些行的html?,python,pandas,Python,Pandas,我试图阅读下表: 为了做到这一点,我正在使用以下代码: pd.read_html('http://unicode.org/emoji/charts/full-emoji-list.html', skiprows=2, encoding="utf-8")[0] 问题是,如果使用skiprows,将跳过前两列,但选择3列作为标题,另一个问题是标题在表中多次出现 那么,如何才能读取这些内容,避免多个标题和只有一行的列呢 谢谢你试试这个 df = pd.read_html('ht
pd.read_html('http://unicode.org/emoji/charts/full-emoji-list.html', skiprows=2, encoding="utf-8")[0]
问题是,如果使用skiprows,将跳过前两列,但选择3列作为标题,另一个问题是标题在表中多次出现
那么,如何才能读取这些内容,避免多个标题和只有一行的列呢
谢谢你试试这个
df = pd.read_html('http://unicode.org/emoji/charts/full-emoji-list.html',encoding="utf-8")[0]
df.columns = [i[2] for i in df.columns]
现在,如果您打印df
,它看起来是这样的
№ Code Browser ... DCM KDDI CLDR Short Name
0 1 U+1F600 � ... — — grinning face
1 2 U+1F603 � ... NaN NaN grinning face with big eyes
2 3 U+1F604 � ... — — grinning face with smiling eyes
3 4 U+1F601 � ... NaN NaN beaming face with smiling eyes
4 5 U+1F606 � ... NaN — grinning squinting face
... ... ... ... ... ... ... ...
2063 subdivision-flag subdivision-flag subdivision-flag ... subdivision-flag subdivision-flag subdivision-flag
2064 № Code Browser ... DCM KDDI CLDR Short Name
2065 1814 U+1F3F4 U+E0067 U+E0062 U+E0065 U+E006E U+E006... ������� ... — — flag: England
2066 1815 U+1F3F4 U+E0067 U+E0062 U+E0073 U+E0063 U+E007... ������� ... — — flag: Scotland
2067 1816 U+1F3F4 U+E0067 U+E0062 U+E0077 U+E006C U+E007... ������� ... — — flag: Wales
[2068 rows x 15 columns]
试着用熊猫的read\u html阅读它。更多信息在我正在使用read_html,但我复制了另一个trie。我更新了问题。您希望的输出是什么样子的?我只希望得到一个带有代码和浏览器图标表示的表。这不起作用,您只选择了一列的行。我选择了所有的行和列。您可以在末尾看到-
2068行x 15列