使用python将表格从web抓取到excel,并将数字作为文本存储在excel中。如何存储为值?
我正试图用熊猫从网站上抓取一张桌子。代码如下所示:使用python将表格从web抓取到excel,并将数字作为文本存储在excel中。如何存储为值?,python,pandas,web-scraping,Python,Pandas,Web Scraping,我正试图用熊猫从网站上抓取一张桌子。代码如下所示: 将熊猫作为pd导入 url=”http://mnregaweb4.nic.in/netnrega/state_html/empstatusnewall_scst.aspx?page=S&lflag=eng&state_name=KERALA&state_code=16&fin_year=2020-2021年&source=国家&Digest=s5wXOIOkT98cNVkcwF6NQA“ df1=pd.read\uHTML(url)[3] df
将熊猫作为pd导入
url=”http://mnregaweb4.nic.in/netnrega/state_html/empstatusnewall_scst.aspx?page=S&lflag=eng&state_name=KERALA&state_code=16&fin_year=2020-2021年&source=国家&Digest=s5wXOIOkT98cNVkcwF6NQA“
df1=pd.read\uHTML(url)[3]
df1.to_excel(“combinedGP.xlsx”,index=False)
在生成的excel文件中,数字保存为文本。由于我计划构建一个大约有1000行的文件,因此无法手动更改数据类型。那么,有没有其他方法将它们存储为实际值而不是文本?TIA该网站可能会反应迟钝
- 有不需要的标题行和两行列标题
- 管理这一点的简单方法是使用适当的参数从
,到\u csv()
到\u csv()
该网站可能是非常没有反应
- 有不需要的标题行和两行列标题
- 管理这一点的简单方法是使用适当的参数从
,到\u csv()
到\u csv()
网站已关闭。。。首先清理你的DF。有两行不是数据,还有两行是列标题…网站已经关闭。。。首先清理你的DF。有两行不是数据,还有两行是列标题。。。
import pandas as pd
import io
url = "http://mnregaweb4.nic.in/netnrega/state_html/empstatusnewall_scst.aspx?page=S&lflag=eng&state_name=KERALA&state_code=16&fin_year=2020-2021&source=national&Digest=s5wXOIOkT98cNVkcwF6NQA"
df1 = pd.read_html(url)[3]
df1 = pd.read_csv(io.StringIO(df1.to_csv(index=False)), skiprows=3, header=[0,1])
# df1.to_excel("combinedGP.xlsx", index=False)
S.No District HH issued jobcards No. of HH Provided Employment EMP. Provided No. of Persondays generated Families Completed 100 Days
S.No District SCs STs Others Total SCs STs Others Total No. of Women SCs STs Others Total Women SCs STs Others Total
0 1.0 ALAPPUZHA 32555 760 254085 287400 20237 565 132744 153546 157490 1104492 40209 6875586 8020287 7635748 1346 148 5840 7334
1 2.0 ERNAKULAM 36907 2529 212534 251970 15500 1517 68539 85556 82270 908035 104040 3788792 4800867 4467329 2848 301 11953 15102