Python 将字符串从web scraper复制到csv文件
我正在尝试制作一个网络刮板,它可以将二战演讲稿放入CSV文件中。我希望专栏是:演讲、演讲者、年度。我正试图将我从网站上抓取的演讲文本添加到演讲栏下,但它不起作用。我希望这几年是1939-45年,每一年的演讲人都是一样的(因为我在这个网站上只有希特勒的演讲稿),但这是行不通的。我不确定是否首先将这些内容放入字典,然后将其作为数据帧放入CSV,或者是否应该将其直接写入CSV文件Python 将字符串从web scraper复制到csv文件,python,pandas,dataframe,csv,dictionary,Python,Pandas,Dataframe,Csv,Dictionary,我正在尝试制作一个网络刮板,它可以将二战演讲稿放入CSV文件中。我希望专栏是:演讲、演讲者、年度。我正试图将我从网站上抓取的演讲文本添加到演讲栏下,但它不起作用。我希望这几年是1939-45年,每一年的演讲人都是一样的(因为我在这个网站上只有希特勒的演讲稿),但这是行不通的。我不确定是否首先将这些内容放入字典,然后将其作为数据帧放入CSV,或者是否应该将其直接写入CSV文件 main_sauce = urllib.request.urlopen(main_page).read() main_so
main_sauce = urllib.request.urlopen(main_page).read()
main_soup = bs.BeautifulSoup(main_sauce, 'lxml')
list_html_links =driver.find_elements_by_tag_name('a')
list_links = []
for i in list_html_links:
list_links.append((i.get_attribute('href')))
driver.quit()
counter = 0
jsin = 0
string_list = np.array([])
mystring = ""
for j in list_links:
if 26 <= counter < 47:
if counter not in [29, 31, 33, 34, 35, 37, 38, 39, 43, 45]:
sauce = urllib.request.urlopen(j).read()
soup = bs.BeautifulSoup(sauce, 'lxml')
for a in soup.find_all('a'):
a.extract()
for paragraph in soup.body.find_all('p'):
mystring += paragraph.text
string_list[jsin] = mystring
jsin += 1
mystring = ""
counter +=1
for speech in string_list:
speech_dict = {'Speeches': string_list[speech],
'Speaker': 'Adolf Hitler', 'Year': '1939-45'}
main\u sause=urllib.request.urlopen(主页).read()
主菜汤=bs.BeautifulSoup(主菜酱,'lxml')
list\u html\u links=驱动程序。按标签名称('a')查找元素
列表链接=[]
对于列表中的i\u html\u链接:
list_links.append((i.get_属性('href'))
driver.quit()
计数器=0
jsin=0
string_list=np.array([])
mystring=“”
对于列表_链接中的j:
如果26您可以使用熊猫数据框使事情变得更简单
Import pandas as pd
data_list = []
for speech in string_list:
speech_dict = {'Speeches': string_list,
'Speaker': 'Adolf Hitler', 'Year': '1939-45'}
data_list.append(speech_dict)
df = pd.DataFrame(data_list)