Python 具有非结构化数据的href链接的刮表
我试图从一个出现在屏幕上的表格中提取一些信息。我能够提取所有需要的数据,但在抓取里面的pdf链接时陷入了困境 这是我的源代码: 以下是迄今为止我的代码:Python 具有非结构化数据的href链接的刮表,python,pandas,dataframe,web-scraping,Python,Pandas,Dataframe,Web Scraping,我试图从一个出现在屏幕上的表格中提取一些信息。我能够提取所有需要的数据,但在抓取里面的pdf链接时陷入了困境 这是我的源代码: 以下是迄今为止我的代码: import pandas as pd import requests from bs4 import BeautifulSoup hdr={'User-Agent':'Chrome/84.0.4147.135'} dfs=[] for page_number in
import pandas as pd
import requests
from bs4 import BeautifulSoup
hdr={'User-Agent':'Chrome/84.0.4147.135'}
dfs=[]
for page_number in range(0,10):
http= "https://example.com/portal/ap_list_all.php?sPage={}".format(page_number)
print('Downloading page %s...' % http)
url= requests.get(http,headers=hdr)
soup = BeautifulSoup(url.text, 'html.parser')
table = soup.find('table')
df_list= pd.read_html(url.text)
df = pd.concat(df_list)
df['Link'] = [link.get('href') for link in table.find_all('a')]
dfs.append(df)
final_df = pd.concat(dfs)
final_df.to_csv('myscraper.csv',index=False,encoding='utf-8-sig')
然而,我得到的是:
我想要的结果如下,再加上额外的pdf链接栏:
任何帮助都将不胜感激。提前非常感谢。您可以使用此示例将数据刮取到panda的数据框中并保存到CSV文件:
import requests
import pandas as pd
from bs4 import BeautifulSoup
url = "https://ejudgment.kehakiman.gov.my/portal/ap_list_all.php?sPage={page}&sRecordsPerPage=20&sSortField=aph_ap_date&sSortOrder=DESC"
data = []
for page in range(0, 10):
print("Getting page {}..".format(page))
soup = BeautifulSoup(
requests.get(url.format(page=page)).content, "html.parser"
)
headers = [
h.get_text(strip=True)
for h in soup.select("thead tr#trchk2 td, thead tr#trchk2 th")
]
for row in soup.select('tbody tr[id^="trchk"]'):
dic = {}
for h, d in zip(headers, row.select("td")):
dic[h] = d.get_text(strip=True, separator="\n")
dic["Link"] = "https:" + row.find("a", target="_blank")["href"]
data.append(dic)
df = pd.DataFrame(data)
print(df)
df.to_csv("data.csv", index=False)
印刷品:
#Nombor Kes Pihak Kata Kunci Tarikh Alasan Penghakiman Hakim/Majistret Dokumen Link
0 1. WA-42(R)(A)-4-11/2018;WA-42R-13-11/2018;WA-4。。。PERAYU:\r\n\t\t1。穆罕默德·阿里夫·本·阿布·拉赫曼\n。。。上诉人在开庭期间被判犯有贪污罪。。。2021年4月28日DATUK ASLAM ZAINUDDIN Alasan Penghakiman\n1)\n28042021判决案。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
1 1. JA-22C-3-02/2020原告:\r\n\t\tYPJ种植园私人有限公司(…民事诉讼-搁置JID的申请…2021年4月28日YA PUAN EVROL MARIETTE PETERS Alasan Penghakiman\n1)\nja-22C-3-02-2020(ypj。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
2.1.W-02(C)(A)-163-01/2020 PERAYU:\r\n\t\tAHMAD ZAKI私人有限公司(公司…Ahmad ZAKI 27/04/2021 YA DATO'ABU BAKAR BIN JAIS\nKorum:\nYA DATO'…Alasan Penghakiman\n1)\nahmad ZAKI私人有限公司.pdfhttps://ejudgment.kehakiman.gov.my/ks_builtin/...
3.WA-45B-24-01/2018潘达瓦拉亚:\r\n\t\tPN扎希达·宾蒂·扎卡尔……2021年4月26日第26场亚图安·科林·劳伦斯·塞奎拉·阿拉桑·彭哈基曼诉穆罕默德·海鲁安。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
4 1. 2019年2月62日PENDAKWARAYA:\r\n\t\tPENDAKWARAYA\intertuduh-瑞典326卡农·凯塞克萨安-塞德拉·帕拉-kr。。。2021年4月26日TN MUSYIRI BIN PEET Alasan Penghakiman\n1)\n在该地区。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
5 1. JA-25-40-12/2020 PEMOHON:\r\n\t\tKIND ACTION(M)SDN BHD\n(n…司法审查许可-于2021年4月25日批准)YA DATO’FREDRICK INDRAN X.A.NICHOLAS Alasan Penghakiman\n1)\nmtjbs2-JA-25-40-12-202。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
6 1. WA-22NCC-618-12/2020诉状:\r\n\t\tTAN MAN HIN(NRIC第55082号…简易判决申请被驳回-2021年4月24日雅团翁志军阿拉桑彭哈基曼\n1)\nwa-22NCC-618-12-2020 t。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
7 1. WA-22NCC-167-04/2020说明:\r\n\t\tSMEB资产管理SDN。。。。O.14 2021年4月23日亚团湾穆罕默德·阿明·本湾亚海亚·阿拉善·蓬哈基曼(新加坡)新元(smeb)。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
8 1. WA-22NCC-401-08/2020说明:\r\n\t\tKHEE SAN BERHAD&;1滞后…-2021年4月22日YA PUAN LIZA CHAN SOW KENG Alasan Penghakiman\n1)\n Hee san dan 1 lagi v。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
9 1. BA-12B-24-02/2020 PERAYU:\r\n\t\tLETCHUMY A/P KRISHNAN\n。。。莱切米v。2021年4月22日,阿富汗首都哈里尔-阿兹拉夫(Khairl Azraf)位于阿拉善彭哈基曼(Penghakiman)\n1)\ngoj-[最终]哈里尔。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
10 1. BA-12B-92-06/2019秘鲁:\r\n\t\tKHAIRIL AZRAF BIN MOHD SEDEK。。。卡里尔·阿兹拉夫诉勒丘米案2021年4月22日TN TEE GEOK HOCK Alasan Penghakiman\n1)\ngoj-[最终]卡里尔。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
11 1. JA-41(ORS)-2-11/2020 PERAYU:\r\n\t\tMUHAMMAD BIN JAAFAR\n。。。2021年4月22日,第413期塔塔卡拉-杰纳亚亚,沙赫纳兹·宾蒂·苏莱曼博士,阿拉桑·彭哈基曼\n1)\nmuhammad bin jaafar.pdfhttps://ejudgment.kehakiman.gov.my/ks_builtin/...
...
并保存data.csv
(来自LibreOffice的屏幕截图):