Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/joomla/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python代码,用于读取excel文档并验证扫描的文书信息是否在列表中,然后在不同的文件中分离项目_Python_Excel_Classification_Directory Structure_Pdftotext - Fatal编程技术网

Python代码,用于读取excel文档并验证扫描的文书信息是否在列表中,然后在不同的文件中分离项目

Python代码,用于读取excel文档并验证扫描的文书信息是否在列表中,然后在不同的文件中分离项目,python,excel,classification,directory-structure,pdftotext,Python,Excel,Classification,Directory Structure,Pdftotext,我发现自己的处境是打印出多张纸,其中包含的信息必须在通过电子邮件收到的excel文档中进行验证。我的职责是通过检查所分配的ID、姓名、电话号码和其他信息,检查收到的工作表是否在excel列表中。我必须将它们分为3个不同的区域(每个区域有不同的格式),然后按优先级进行分类。我必须将excel文件中未列出的内容分开,并将它们放在一边,以便在第二天、第二天或第二天根据另一个excel列表进行检查,依此类推。即使它们没有列出,我也必须对它们进行分类。我有时也会被取消 我有可能扫描打印的表单,并通过电子邮

我发现自己的处境是打印出多张纸,其中包含的信息必须在通过电子邮件收到的excel文档中进行验证。我的职责是通过检查所分配的ID、姓名、电话号码和其他信息,检查收到的工作表是否在excel列表中。我必须将它们分为3个不同的区域(每个区域有不同的格式),然后按优先级进行分类。我必须将excel文件中未列出的内容分开,并将它们放在一边,以便在第二天、第二天或第二天根据另一个excel列表进行检查,依此类推。即使它们没有列出,我也必须对它们进行分类。我有时也会被取消

我有可能扫描打印的表单,并通过电子邮件将它们以PDF格式发送回我的计算机,这让我想到,由于编码的力量,肯定有一种方法可以加快验证过程!(这是我在大约两个月前通过python才发现的一种能力)

{sidenote}我试图通过使用粗体和斜体来表达这两种内容,使以下内容更具可读性:

我想找到一种自动化这些任务的方法

此信息可能与代码相关

请在这次冒险中指导我学习代码,如果您觉得我的问题/解释缺乏或难以理解,请毫不犹豫地建议重写或添加到这些行中,我很乐意接受。我请求你教育我并指出我的错误。我现在将尽力解释我期望代码做什么,并提供与案例相关的信息

  • 1-查看纸张以查找与分类相关的信息。我必须在纸上查找某些关键字或数字,让我知道如何对这张特殊的纸进行分类。我曾试图找到一个程序将图像/PDF扫描成文本,但“Pytesheract”是我几乎能理解的唯一选项。我很想知道在我的情况下什么最有效。如果能够设置我要查找的关键字的数量,它们是长度,如果它们有字母数值,那就太好了。他们通常在纸上的定位也是一个不错的选择(我认为这要求太高了,如果是的话,我很抱歉)。因此,第一步是分析扫描的图纸,以获取所需信息,第二步是创建文件夹,根据我们可以从分析中获得的信息放置所有图纸,所有这些都符合分类系统(见下文2和3)

  • 2-根据分类系统将每张扫描的纸张分为不同的文件夹。我认为对每张扫描的纸张进行分类的最好方法是创建文件夹,在其中重定向它们以便于操作。如果其中一张放错了位置,我可能错了。我猜分类顺序应该基于优先级,例如:[1-地区,2-日期,3-准备,4-员工,5-无名单,6-取消]=>3个主文件夹用于[3个不同地区]保存不同[date]的文件夹,每个日期有2个子文件夹:[ready/not ready],在这两个子文件夹中保存:[employee/not employee]。还需要一个文件夹用于[Cancelled]类型,一个文件夹用于不符合预定类别的[未列出](见下文4)

    • 2.1-我有时会收到已取消的表格的通知,需要将其放在一边。已取消的表格上会写上“已取消”字样,并且不会包含确定[准备就绪/未准备就绪]或[员工/非员工]所需的信息。这些页面仍然需要划分为3个不同的区域和日期(如果可能),但不需要进一步分类(有时所需的日期在工作表的指定位置缺失,而另一个日期出现在工作表的另一个位置,因此我认为只应考虑区域)
  • 3-识别预期/需要的数据或值。每张纸都有唯一的信息/关键字,可以按[地区]和[日期]分类为[准备就绪/未准备就绪]和[员工/非员工]。确定是否准备就绪取决于以下哪一项写在页面上:[r/nr]=[DT/NON-DT](这些值中的任何一个都应始终出现在纸上,如果没有,则很可能是取消的表单)。[e/ne]=[G8、G9、G18、G23/除此选择之外的任何内容都不是员工的]

  • 4-浏览每个扫描页面,查看其信息是否列在excel文件中的一行中,然后将每张工作表分类为其各自的类别,=>这是为了证明我的扫描论文是否已列在我的excel工作表中。[列出/未列出]。我用来对工作表进行分类的excel文件有许多不必要的列,我只需要:状态、ID、姓氏、名字、注释和电话号码。在我的excel文件中,每一行都是不同的项目,列中包含ID和名称等信息集。此外,每一张扫描的纸张可能来自三个区域中的一个,每个区域都有自己的图纸布局。我需要能够对我的[未列出的]选择进行分类,然后在系统中根据另一个列表运行它们

因此,我相信这是我希望完成的任务的主要思想背后的所有必要信息