Python 没有从文档中解析文本

Python 没有从文档中解析文本,python,pandas,Python,Pandas,我已经编写了一个html文本解析器,当我在大批量文件(即5000或更多)中使用它时,它会随机产生此错误,当我重新运行它时,它会在完全相同的文件中产生相同的错误。因此,我删除了这些文件,分别对它们进行解析,然后解析器读取它们 因此,我创建了一个包含“有问题”文件的新文件夹,并尝试分别解析它们,这对大多数人来说不会产生错误,然后再次产生相同的错误 这是密码 import pandas as pd import shutil import os import glob source_file = r

我已经编写了一个html文本解析器,当我在大批量文件(即5000或更多)中使用它时,它会随机产生此错误,当我重新运行它时,它会在完全相同的文件中产生相同的错误。因此,我删除了这些文件,分别对它们进行解析,然后解析器读取它们

因此,我创建了一个包含“有问题”文件的新文件夹,并尝试分别解析它们,这对大多数人来说不会产生错误,然后再次产生相同的错误

这是密码

import pandas as pd
import shutil
import os
import glob

source_file = r'C:/Users/Ahmed_Abdelmuniem/Desktop/Mar/Problematic/'

file_names = glob.glob(os.path.join(source_file,"*.html"))

for file_name in file_names:
    table = pd.read_html(file_name)
    print (table)
这就是错误:

Traceback (most recent call last):
  File "C:\Users\Ahmed_Abdelmuniem\PycharmProjects\No Text Parsed Troubleshooting\main.py", line 11, in <module>
    table = pd.read_html(file_name)
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\util\_decorators.py", line 299, in wrapper
    return func(*args, **kwargs)
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\io\html.py", line 1085, in read_html
    return _parse(
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\io\html.py", line 893, in _parse
    tables = p.parse_tables()
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\io\html.py", line 213, in parse_tables
    tables = self._parse_tables(self._build_doc(), self.match, self.attrs)
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\io\html.py", line 735, in _build_doc
    raise XMLSyntaxError("no text parsed from document", 0, 0, 0)
  File "<string>", line 0
lxml.etree.XMLSyntaxError: no text parsed from document

Process finished with exit code 1

回溯(最近一次呼叫最后一次):
文件“C:\Users\Ahmed_Abdelmuniem\PycharmProjects\No Text Parsed Troubleshooting\main.py”,第11行,在
table=pd.read\u html(文件名)
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\util\\u decorators.py”,第299行,在包装器中
返回函数(*args,**kwargs)
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\io\html.py”,第1085行,以只读html格式
返回解析(
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\io\html.py”,第893行,在
tables=p.parse_tables()
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\io\html.py”,第213行,在parse\u表格中
tables=self.\u parse\u tables(self.\u build\u doc(),self.match,self.attrs)
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\io\html.py”,第735行,在构建文档中
引发XMLSyntaxError(“未从文档中解析文本”,0,0,0)
文件“”,第0行
lxml.etree.XMLSyntaxError:未从文档中解析文本
进程已完成,退出代码为1
我把“不可读”的文件放在文件夹外,分别解析它们,代码读取它们,我似乎无法识别出哪里出了问题


我希望我的解释清楚且充分。

打印(表格)
之前,添加
打印(文件名)
若要查看导致问题的文件。然后将该文件的内容添加到问题中。错误中有一行显示
未解析文档中的文本
,您可能需要检查该文件中是否有任何数据,以及是否符合@AvenDesta的建议。创建
try/except
块并打印fi的名称在
中,除了
@AvenDesta,我已经识别了文件,当我单独运行程序时,它们工作,我不确定问题是什么。如果它可以单独读取,为什么放在文件夹中时不读取?该文件包含100多个表,我无法准确地将其发布到此处。