Python 没有从文档中解析文本_Python_Pandas

Python 没有从文档中解析文本

python pandas

Python 没有从文档中解析文本,python,pandas,Python,Pandas,我已经编写了一个html文本解析器，当我在大批量文件（即5000或更多）中使用它时，它会随机产生此错误，当我重新运行它时，它会在完全相同的文件中产生相同的错误。因此，我删除了这些文件，分别对它们进行解析，然后解析器读取它们因此，我创建了一个包含“有问题”文件的新文件夹，并尝试分别解析它们，这对大多数人来说不会产生错误，然后再次产生相同的错误这是密码 import pandas as pd import shutil import os import glob source_file = r

我已经编写了一个html文本解析器，当我在大批量文件（即5000或更多）中使用它时，它会随机产生此错误，当我重新运行它时，它会在完全相同的文件中产生相同的错误。因此，我删除了这些文件，分别对它们进行解析，然后解析器读取它们

因此，我创建了一个包含“有问题”文件的新文件夹，并尝试分别解析它们，这对大多数人来说不会产生错误，然后再次产生相同的错误

这是密码

import pandas as pd
import shutil
import os
import glob

source_file = r'C:/Users/Ahmed_Abdelmuniem/Desktop/Mar/Problematic/'

file_names = glob.glob(os.path.join(source_file,"*.html"))

for file_name in file_names:
    table = pd.read_html(file_name)
    print (table)

这就是错误：

Traceback (most recent call last):
  File "C:\Users\Ahmed_Abdelmuniem\PycharmProjects\No Text Parsed Troubleshooting\main.py", line 11, in <module>
    table = pd.read_html(file_name)
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\util\_decorators.py", line 299, in wrapper
    return func(*args, **kwargs)
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\io\html.py", line 1085, in read_html
    return _parse(
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\io\html.py", line 893, in _parse
    tables = p.parse_tables()
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\io\html.py", line 213, in parse_tables
    tables = self._parse_tables(self._build_doc(), self.match, self.attrs)
  File "C:\Users\Ahmed_Abdelmuniem\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\io\html.py", line 735, in _build_doc
    raise XMLSyntaxError("no text parsed from document", 0, 0, 0)
  File "<string>", line 0
lxml.etree.XMLSyntaxError: no text parsed from document

Process finished with exit code 1

回溯（最近一次呼叫最后一次）：
文件“C:\Users\Ahmed_Abdelmuniem\PycharmProjects\No Text Parsed Troubleshooting\main.py”，第11行，在
table=pd.read\u html（文件名）
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\util\\u decorators.py”，第299行，在包装器中
返回函数（*args，**kwargs）
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\io\html.py”，第1085行，以只读html格式
返回解析(
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\io\html.py”，第893行，在
tables=p.parse_tables（）
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\io\html.py”，第213行，在parse\u表格中
tables=self.\u parse\u tables（self.\u build\u doc（），self.match，self.attrs）
文件“C:\Users\Ahmed\u Abdelmuniem\AppData\Local\Programs\Python\39\lib\site packages\pandas\io\html.py”，第735行，在构建文档中
引发XMLSyntaxError（“未从文档中解析文本”，0，0，0）
文件“”，第0行
lxml.etree.XMLSyntaxError:未从文档中解析文本
进程已完成，退出代码为1

我把“不可读”的文件放在文件夹外，分别解析它们，代码读取它们，我似乎无法识别出哪里出了问题

我希望我的解释清楚且充分。

在

打印（表格）

之前，添加

打印（文件名）

若要查看导致问题的文件。然后将该文件的内容添加到问题中。错误中有一行显示

未解析文档中的文本

，您可能需要检查该文件中是否有任何数据，以及是否符合@AvenDesta的建议。创建

try/except

块并打印fi的名称在

中，除了

@AvenDesta，我已经识别了文件，当我单独运行程序时，它们工作，我不确定问题是什么。如果它可以单独读取，为什么放在文件夹中时不读取？该文件包含100多个表，我无法准确地将其发布到此处。