Python 将HTML元素添加到数据框架
我目前正在转换word文档,以便读取某些元素并将它们添加到数据帧中。然而,我面临以下问题。通过使用下面的代码,我能够检索所有元素,因为它们具有以下形式:Python 将HTML元素添加到数据框架,python,html,pandas,Python,Html,Pandas,我目前正在转换word文档,以便读取某些元素并将它们添加到数据帧中。然而,我面临以下问题。通过使用下面的代码,我能够检索所有元素,因为它们具有以下形式: 此处的文本。因此,我得到了列表中的所有元素。但是现在我想使用循环将它们添加到数据帧中,例如,第一个元素应该是title。请参阅下面的代码 import mammoth import os import docx import string import re import xml.etree.ElementTree as ElementTre
此处的文本
。因此,我得到了列表中的所有
元素。但是现在我想使用循环将它们添加到数据帧中,例如,第一个元素应该是title。请参阅下面的代码
import mammoth
import os
import docx
import string
import re
import xml.etree.ElementTree as ElementTree
from bs4 import BeautifulSoup
import pandas as pd
path = os.chdir('C:/Users...')
filename = "newsupdate.docx"
regex = '\xc2\xb7'
with open(filename, "rb") as docx_file:
result = mammoth.convert_to_html(docx_file)
text = result.value # The raw text
text2=re.sub(u'[|•●]', " ", text, count= 0)
with open('output.txt', 'w', encoding='utf-8') as text_file:
text_file.write(text2)
#create pandas dataframe
df = pd.DataFrame(columns=['date', 'title')
soup = BeautifulSoup(text2)
p_elements = soup.findAll("p")
p_strong_elements = []
for index, element in enumerate(p_elements, start=1):
print(index, element)
if index==1:
df['date']append(element)
但是,我得到以下错误:
cannot concatenate object of type '<class 'bs4.element.Tag'>'; only Series and DataFrame objs are valid
但这并没有得到很好的解决。有人能告诉我怎么解决这个问题吗
string_p_elements = []
for p_element in p_elements:
string_p_elements.append(str(p_element))