Web scraping 使用python请求删除数据表

Web scraping 使用python请求删除数据表,web-scraping,datatables,python-requests,Web Scraping,Datatables,Python Requests,我已经删除了一些包含表的站点,如果表本身是类名,大多数站点都使用以下代码。(想法是将数据刮取并放入csv文件中) 当我使用网站()时;第一列返回的信息比我想要的要多,这可能是因为第一列有一个超链接。在此方面的任何帮助都将不胜感激:)嗨!你说的更多信息是什么意思?你有什么要求?更清楚地帮助您。可能只需删除换行就可以了。。。例如:cell.get_text().replace('\n','')?使用这一行从该页面中删除脚本标记,以清除不需要的项目[script.extract()for script

我已经删除了一些包含表的站点,如果表本身是类名,大多数站点都使用以下代码。(想法是将数据刮取并放入csv文件中)


当我使用网站()时;第一列返回的信息比我想要的要多,这可能是因为第一列有一个超链接。在此方面的任何帮助都将不胜感激:)

嗨!你说的更多信息是什么意思?你有什么要求?更清楚地帮助您。可能只需删除换行就可以了。。。例如:
cell.get_text().replace('\n','')
?使用这一行从该页面中删除脚本标记,以清除不需要的项目
[script.extract()for script in soup.find_all(“script”)]
我从维基百科网站检索到的信息将是字段中的可见文本(例如:Rob Pike),鉴于我尝试使用的网站提供了以下信息:。我不认为删除空行会有帮助,因为额外的信息不是空行,而是围绕着我想要实现的文本的代码。(查看附件中的图片,看看我在说什么)@SIM,我不确定我将如何在我的代码中实现它,你可以发布一个集成了它的版本吗?
import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
import urllib

url = ("https://en.wikipedia.org/wiki/Comparison_of_text_editors")
req = urllib.request.Request(url, headers={'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'})
html = urllib.request.urlopen(req)

bsObj = BeautifulSoup(html, "lxml")
table = bsObj.find_all("table", {"class": "wikitable"})[0]
rows = table.find_all("tr")
csv_file = open("proxies2.csv", 'a', newline='')
writer = csv.writer(csv_file)
try:
    for rows in rows:
        csvRow = []
        for cell in rows.find_all(["td", "th"]):
            csvRow.append(cell.get_text())
        writer.writerow(csvRow)
finally:
    csv_file.close()