Web scraping 使用python请求删除数据表_Web Scraping_Datatables_Python Requests

Web scraping 使用python请求删除数据表

web-scraping datatables

Web scraping 使用python请求删除数据表,web-scraping,datatables,python-requests,Web Scraping,Datatables,Python Requests,我已经删除了一些包含表的站点，如果表本身是类名，大多数站点都使用以下代码。（想法是将数据刮取并放入csv文件中）当我使用网站（）时；第一列返回的信息比我想要的要多，这可能是因为第一列有一个超链接。在此方面的任何帮助都将不胜感激：）嗨！你说的更多信息是什么意思？你有什么要求？更清楚地帮助您。可能只需删除换行就可以了。。。例如：cell.get_text（）.replace（'\n'，''）？使用这一行从该页面中删除脚本标记，以清除不需要的项目[script.extract（）for script

我已经删除了一些包含表的站点，如果表本身是类名，大多数站点都使用以下代码。（想法是将数据刮取并放入csv文件中）

当我使用网站（）时；第一列返回的信息比我想要的要多，这可能是因为第一列有一个超链接。在此方面的任何帮助都将不胜感激：）

嗨！你说的更多信息是什么意思？你有什么要求？更清楚地帮助您。可能只需删除换行就可以了。。。例如：

cell.get_text（）.replace（'\n'，''）

？使用这一行从该页面中删除脚本标记，以清除不需要的项目

[script.extract（）for script in soup.find_all（“script”）]

我从维基百科网站检索到的信息将是字段中的可见文本（例如：Rob Pike），鉴于我尝试使用的网站提供了以下信息：。我不认为删除空行会有帮助，因为额外的信息不是空行，而是围绕着我想要实现的文本的代码。（查看附件中的图片，看看我在说什么）@SIM，我不确定我将如何在我的代码中实现它，你可以发布一个集成了它的版本吗？

import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
import urllib

url = ("https://en.wikipedia.org/wiki/Comparison_of_text_editors")
req = urllib.request.Request(url, headers={'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'})
html = urllib.request.urlopen(req)

bsObj = BeautifulSoup(html, "lxml")
table = bsObj.find_all("table", {"class": "wikitable"})[0]
rows = table.find_all("tr")
csv_file = open("proxies2.csv", 'a', newline='')
writer = csv.writer(csv_file)
try:
    for rows in rows:
        csvRow = []
        for cell in rows.find_all(["td", "th"]):
            csvRow.append(cell.get_text())
        writer.writerow(csvRow)
finally:
    csv_file.close()