Python 读取文本文件时如何评估数据类型（即str、int、double…等）_Python_Parsing_Pdf_Text

Python 读取文本文件时如何评估数据类型（即str、int、double…等）

python parsing pdf text

Python 读取文本文件时如何评估数据类型（即str、int、double…等）,python,parsing,pdf,text,Python,Parsing,Pdf,Text,我从一个从pdf文件中撕下的文本文件中读取信息，所以一切都是一团糟我试图分离的一些示例变量列包括日期、操作类型和摘要对于date，格式是DD/MM/YY，因此我知道第一个索引将始终是int。但是，每当我使用typexyz测试文件时，所有内容都标记为str 如何让python识别什么是str，什么不是int，什么不是double。。。等等？简短回答：使用正则表达式并重铸字符串部分详细回答：这是因为所有这些都来自一个文本文件，所以一切都是一个字符串。日期23/10/90在.txt中不是数字值，

我从一个从pdf文件中撕下的文本文件中读取信息，所以一切都是一团糟

我试图分离的一些示例变量列包括日期、操作类型和摘要

对于date，格式是DD/MM/YY，因此我知道第一个索引将始终是int。但是，每当我使用typexyz测试文件时，所有内容都标记为str

如何让python识别什么是str，什么不是int，什么不是double。。。等等？

简短回答：使用正则表达式并重铸字符串部分

详细回答：这是因为所有这些都来自一个文本文件，所以一切都是一个字符串。日期23/10/90在.txt中不是数字值，而是字符代码的集合。根据您正试图从该文件中获取的内容，您最好的选择是对所需数据进行正则化，然后对其进行重铸。因此，对于日期，请尝试intdayString intmonthString等。

从文件中读取文本时，所有内容都是字符串。如果要将该字符串解析为数字、日期等，则必须显式地进行解析。但是我如何解析文本呢？这是一个过于宽泛的问题。