Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/320.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/lua/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 具有非结构化数据的href链接的刮表_Python_Pandas_Dataframe_Web Scraping - Fatal编程技术网

Python 具有非结构化数据的href链接的刮表

Python 具有非结构化数据的href链接的刮表,python,pandas,dataframe,web-scraping,Python,Pandas,Dataframe,Web Scraping,我试图从一个出现在屏幕上的表格中提取一些信息。我能够提取所有需要的数据,但在抓取里面的pdf链接时陷入了困境 这是我的源代码: 以下是迄今为止我的代码: import pandas as pd import requests from bs4 import BeautifulSoup hdr={'User-Agent':'Chrome/84.0.4147.135'} dfs=[] for page_number in

我试图从一个出现在屏幕上的表格中提取一些信息。我能够提取所有需要的数据,但在抓取里面的pdf链接时陷入了困境

这是我的源代码:

以下是迄今为止我的代码:

    import pandas as pd
    import requests
    from bs4 import BeautifulSoup
    
    hdr={'User-Agent':'Chrome/84.0.4147.135'}
    
    dfs=[]
    
    for page_number in range(0,10):
        http= "https://example.com/portal/ap_list_all.php?sPage={}".format(page_number)
    
        print('Downloading page %s...' % http)
        url= requests.get(http,headers=hdr)
        soup = BeautifulSoup(url.text, 'html.parser')
        table = soup.find('table')
        df_list= pd.read_html(url.text)
        df = pd.concat(df_list)
        df['Link'] = [link.get('href') for link in table.find_all('a')]
        dfs.append(df)
    
    final_df = pd.concat(dfs)
    final_df.to_csv('myscraper.csv',index=False,encoding='utf-8-sig')
然而,我得到的是:

我想要的结果如下,再加上额外的pdf链接栏:


任何帮助都将不胜感激。提前非常感谢。

您可以使用此示例将数据刮取到panda的数据框中并保存到CSV文件:

import requests
import pandas as pd
from bs4 import BeautifulSoup


url = "https://ejudgment.kehakiman.gov.my/portal/ap_list_all.php?sPage={page}&sRecordsPerPage=20&sSortField=aph_ap_date&sSortOrder=DESC"

data = []
for page in range(0, 10):
    print("Getting page {}..".format(page))

    soup = BeautifulSoup(
        requests.get(url.format(page=page)).content, "html.parser"
    )

    headers = [
        h.get_text(strip=True)
        for h in soup.select("thead tr#trchk2 td, thead tr#trchk2 th")
    ]

    for row in soup.select('tbody tr[id^="trchk"]'):
        dic = {}
        for h, d in zip(headers, row.select("td")):
            dic[h] = d.get_text(strip=True, separator="\n")
        dic["Link"] = "https:" + row.find("a", target="_blank")["href"]
        data.append(dic)

df = pd.DataFrame(data)
print(df)
df.to_csv("data.csv", index=False)
印刷品:

#Nombor Kes Pihak Kata Kunci Tarikh Alasan Penghakiman Hakim/Majistret Dokumen Link
0      1.  WA-42(R)(A)-4-11/2018;WA-42R-13-11/2018;WA-4。。。PERAYU:\r\n\t\t1。穆罕默德·阿里夫·本·阿布·拉赫曼\n。。。上诉人在开庭期间被判犯有贪污罪。。。2021年4月28日DATUK ASLAM ZAINUDDIN Alasan Penghakiman\n1)\n28042021判决案。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
1      1.                                   JA-22C-3-02/2020原告:\r\n\t\tYPJ种植园私人有限公司(…民事诉讼-搁置JID的申请…2021年4月28日YA PUAN EVROL MARIETTE PETERS Alasan Penghakiman\n1)\nja-22C-3-02-2020(ypj。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
2.1.W-02(C)(A)-163-01/2020 PERAYU:\r\n\t\tAHMAD ZAKI私人有限公司(公司…Ahmad ZAKI 27/04/2021 YA DATO'ABU BAKAR BIN JAIS\nKorum:\nYA DATO'…Alasan Penghakiman\n1)\nahmad ZAKI私人有限公司.pdfhttps://ejudgment.kehakiman.gov.my/ks_builtin/...
3.WA-45B-24-01/2018潘达瓦拉亚:\r\n\t\tPN扎希达·宾蒂·扎卡尔……2021年4月26日第26场亚图安·科林·劳伦斯·塞奎拉·阿拉桑·彭哈基曼诉穆罕默德·海鲁安。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
4      1.                                      2019年2月62日PENDAKWARAYA:\r\n\t\tPENDAKWARAYA\intertuduh-瑞典326卡农·凯塞克萨安-塞德拉·帕拉-kr。。。2021年4月26日TN MUSYIRI BIN PEET Alasan Penghakiman\n1)\n在该地区。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
5      1.                                   JA-25-40-12/2020 PEMOHON:\r\n\t\tKIND ACTION(M)SDN BHD\n(n…司法审查许可-于2021年4月25日批准)YA DATO’FREDRICK INDRAN X.A.NICHOLAS Alasan Penghakiman\n1)\nmtjbs2-JA-25-40-12-202。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
6      1.                               WA-22NCC-618-12/2020诉状:\r\n\t\tTAN MAN HIN(NRIC第55082号…简易判决申请被驳回-2021年4月24日雅团翁志军阿拉桑彭哈基曼\n1)\nwa-22NCC-618-12-2020 t。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
7      1.                               WA-22NCC-167-04/2020说明:\r\n\t\tSMEB资产管理SDN。。。。O.14 2021年4月23日亚团湾穆罕默德·阿明·本湾亚海亚·阿拉善·蓬哈基曼(新加坡)新元(smeb)。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
8      1.                               WA-22NCC-401-08/2020说明:\r\n\t\tKHEE SAN BERHAD&;1滞后…-2021年4月22日YA PUAN LIZA CHAN SOW KENG Alasan Penghakiman\n1)\n Hee san dan 1 lagi v。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
9      1.                                  BA-12B-24-02/2020 PERAYU:\r\n\t\tLETCHUMY A/P KRISHNAN\n。。。莱切米v。2021年4月22日,阿富汗首都哈里尔-阿兹拉夫(Khairl Azraf)位于阿拉善彭哈基曼(Penghakiman)\n1)\ngoj-[最终]哈里尔。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
10     1.                                  BA-12B-92-06/2019秘鲁:\r\n\t\tKHAIRIL AZRAF BIN MOHD SEDEK。。。卡里尔·阿兹拉夫诉勒丘米案2021年4月22日TN TEE GEOK HOCK Alasan Penghakiman\n1)\ngoj-[最终]卡里尔。。。https://ejudgment.kehakiman.gov.my/ks_builtin/...
11     1.                               JA-41(ORS)-2-11/2020 PERAYU:\r\n\t\tMUHAMMAD BIN JAAFAR\n。。。2021年4月22日,第413期塔塔卡拉-杰纳亚亚,沙赫纳兹·宾蒂·苏莱曼博士,阿拉桑·彭哈基曼\n1)\nmuhammad bin jaafar.pdfhttps://ejudgment.kehakiman.gov.my/ks_builtin/...
...
并保存
data.csv
(来自LibreOffice的屏幕截图):