Python代码，用于读取excel文档并验证扫描的文书信息是否在列表中，然后在不同的文件中分离项目_Python_Excel_Classification_Directory Structure_Pdftotext

Python代码，用于读取excel文档并验证扫描的文书信息是否在列表中，然后在不同的文件中分离项目

python excel

Python代码，用于读取excel文档并验证扫描的文书信息是否在列表中，然后在不同的文件中分离项目,python,excel,classification,directory-structure,pdftotext,Python,Excel,Classification,Directory Structure,Pdftotext,我发现自己的处境是打印出多张纸，其中包含的信息必须在通过电子邮件收到的excel文档中进行验证。我的职责是通过检查所分配的ID、姓名、电话号码和其他信息，检查收到的工作表是否在excel列表中。我必须将它们分为3个不同的区域（每个区域有不同的格式），然后按优先级进行分类。我必须将excel文件中未列出的内容分开，并将它们放在一边，以便在第二天、第二天或第二天根据另一个excel列表进行检查，依此类推。即使它们没有列出，我也必须对它们进行分类。我有时也会被取消我有可能扫描打印的表单，并通过电子邮

我发现自己的处境是打印出多张纸，其中包含的信息必须在通过电子邮件收到的excel文档中进行验证。我的职责是通过检查所分配的ID、姓名、电话号码和其他信息，检查收到的工作表是否在excel列表中。我必须将它们分为3个不同的区域（每个区域有不同的格式），然后按优先级进行分类。我必须将excel文件中未列出的内容分开，并将它们放在一边，以便在第二天、第二天或第二天根据另一个excel列表进行检查，依此类推。即使它们没有列出，我也必须对它们进行分类。我有时也会被取消

我有可能扫描打印的表单，并通过电子邮件将它们以PDF格式发送回我的计算机，这让我想到，由于编码的力量，肯定有一种方法可以加快验证过程！（这是我在大约两个月前通过python才发现的一种能力）

{sidenote}我试图通过使用粗体和斜体来表达这两种内容，使以下内容更具可读性：

我想找到一种自动化这些任务的方法

此信息可能与代码相关

请在这次冒险中指导我学习代码，如果您觉得我的问题/解释缺乏或难以理解，请毫不犹豫地建议重写或添加到这些行中，我很乐意接受。我请求你教育我并指出我的错误。我现在将尽力解释我期望代码做什么，并提供与案例相关的信息

1-查看纸张以查找与分类相关的信息。我必须在纸上查找某些关键字或数字，让我知道如何对这张特殊的纸进行分类。我曾试图找到一个程序将图像/PDF扫描成文本，但“Pytesheract”是我几乎能理解的唯一选项。我很想知道在我的情况下什么最有效。如果能够设置我要查找的关键字的数量，它们是长度，如果它们有字母数值，那就太好了。他们通常在纸上的定位也是一个不错的选择（我认为这要求太高了，如果是的话，我很抱歉）。因此，第一步是分析扫描的图纸，以获取所需信息，第二步是创建文件夹，根据我们可以从分析中获得的信息放置所有图纸，所有这些都符合分类系统（见下文2和3）

2-根据分类系统将每张扫描的纸张分为不同的文件夹。我认为对每张扫描的纸张进行分类的最好方法是创建文件夹，在其中重定向它们以便于操作。如果其中一张放错了位置，我可能错了。我猜分类顺序应该基于优先级，例如：[1-地区，2-日期，3-准备，4-员工，5-无名单，6-取消]=>3个主文件夹用于[3个不同地区]保存不同[date]的文件夹，每个日期有2个子文件夹：[ready/not ready]，在这两个子文件夹中保存：[employee/not employee]。还需要一个文件夹用于[Cancelled]类型，一个文件夹用于不符合预定类别的[未列出]（见下文4）

- 2.1-我有时会收到已取消的表格的通知，需要将其放在一边。已取消的表格上会写上“已取消”字样，并且不会包含确定[准备就绪/未准备就绪]或[员工/非员工]所需的信息。这些页面仍然需要划分为3个不同的区域和日期（如果可能），但不需要进一步分类（有时所需的日期在工作表的指定位置缺失，而另一个日期出现在工作表的另一个位置，因此我认为只应考虑区域）
3-识别预期/需要的数据或值。每张纸都有唯一的信息/关键字，可以按[地区]和[日期]分类为[准备就绪/未准备就绪]和[员工/非员工]。确定是否准备就绪取决于以下哪一项写在页面上：[r/nr]=[DT/NON-DT]（这些值中的任何一个都应始终出现在纸上，如果没有，则很可能是取消的表单）。[e/ne]=[G8、G9、G18、G23/除此选择之外的任何内容都不是员工的]
4-浏览每个扫描页面，查看其信息是否列在excel文件中的一行中，然后将每张工作表分类为其各自的类别，=>这是为了证明我的扫描论文是否已列在我的excel工作表中。[列出/未列出]。我用来对工作表进行分类的excel文件有许多不必要的列，我只需要：状态、ID、姓氏、名字、注释和电话号码。在我的excel文件中，每一行都是不同的项目，列中包含ID和名称等信息集。此外，每一张扫描的纸张可能来自三个区域中的一个，每个区域都有自己的图纸布局。我需要能够对我的[未列出的]选择进行分类，然后在系统中根据另一个列表运行它们

因此，我相信这是我希望完成的任务的主要思想背后的所有必要信息