Python 将HTML元素添加到数据框架_Python_Html_Pandas

Python 将HTML元素添加到数据框架

python html pandas

Python 将HTML元素添加到数据框架,python,html,pandas,Python,Html,Pandas,我目前正在转换word文档，以便读取某些元素并将它们添加到数据帧中。然而，我面临以下问题。通过使用下面的代码，我能够检索所有元素，因为它们具有以下形式：此处的文本。因此，我得到了列表中的所有元素。但是现在我想使用循环将它们添加到数据帧中，例如，第一个元素应该是title。请参阅下面的代码 import mammoth import os import docx import string import re import xml.etree.ElementTree as ElementTre

我目前正在转换word文档，以便读取某些元素并将它们添加到数据帧中。然而，我面临以下问题。通过使用下面的代码，我能够检索所有元素，因为它们具有以下形式：

此处的文本

。因此，我得到了列表中的所有

元素。但是现在我想使用循环将它们添加到数据帧中，例如，第一个元素应该是title。请参阅下面的代码

import mammoth
import os 
import docx
import string
import re
import xml.etree.ElementTree as ElementTree
from bs4 import BeautifulSoup
import pandas as pd

path = os.chdir('C:/Users...')
filename = "newsupdate.docx"
regex = '\xc2\xb7'
with open(filename, "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    text = result.value # The raw text
    text2=re.sub(u'[|•●]', " ", text, count= 0) 
    with open('output.txt', 'w', encoding='utf-8') as text_file:
        text_file.write(text2)
               
#create pandas dataframe 
df = pd.DataFrame(columns=['date', 'title')
    

soup = BeautifulSoup(text2)
p_elements = soup.findAll("p")
p_strong_elements = []

for index, element in enumerate(p_elements, start=1):
    print(index, element)     
    if index==1:
        df['date']append(element)

但是，我得到以下错误：

cannot concatenate object of type '<class 'bs4.element.Tag'>'; only Series and DataFrame objs are valid

但这并没有得到很好的解决。有人能告诉我怎么解决这个问题吗

string_p_elements = []
for p_element in p_elements:
    string_p_elements.append(str(p_element))