Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/visual-studio-code/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何在两个字符之间设置sed或grep值pdf_Python_Linux_Grep - Fatal编程技术网

Python 如何在两个字符之间设置sed或grep值pdf

Python 如何在两个字符之间设置sed或grep值pdf,python,linux,grep,Python,Linux,Grep,我想使用sed或grep将pdf文件中两个字符之间的值复制并写入文件,但无法解决如何执行此操作。我要复制的字符串是,例如,nnnn/yyyy nnnn是可以更改的数字值,yyy是可以更改的年份值。例如: 23/2019 5014/2020 1117/2015 1/2020 我还需要在“&”和/或“(”之前的行上复制和写入字母数字值。该值用空格分隔 以下是如何将数据从pdf转换为文本 United States of America TXCO fuel management Where

我想使用sed或grep将pdf文件中两个字符之间的值复制并写入文件,但无法解决如何执行此操作。我要复制的字符串是,例如,nnnn/yyyy nnnn是可以更改的数字值,yyy是可以更改的年份值。例如:

23/2019
5014/2020
1117/2015
1/2020
我还需要在“&”和/或“(”之前的行上复制和写入字母数字值。该值用空格分隔

以下是如何将数据从pdf转换为文本

United States of America    TXCO fuel management

Where 3315 Fredericksburg Rd, San Antonio, TX 78201                             (Pump 7), 
United States
()

3136CACE816877B17EABF2527E712B2D366DF F8C3FD6B1B33B11B733B49A9364 (771) & 7A5261C640D69CAD968B1F1C8CEEFC17D2C73947723A9B462D8ABC10D881F933 

 DD6052F67258F2B789010E834D711192914834CD3688E4260A7B52D2A9 373A75 (5009) & 8E5767F7092BA7E8FC6706EFC7FBC58E3E965F5F608978A484DE0CFF68D13C5E 

(SRIM/74/2020) (via link) 

B251A8C6C649725306C725BCA23E7C211A63 95BDF1747F9F30B43155E3B7A8A8 & 4796F04682E1B30C704AE3A4530FE51D913C5C3181F19418A07259CFDA0E05DD

(OGAR/83/2020) (via link) 

801742B10E6CB8E E31E0FC508B6550D8C7766B42EEFA052D3F678D59DBF99655 & 1D873ED80DC020BC75C1E52B20E9F08E6E6C58F140F74DFD18B726856FD394A8
(IND/3/2020) (via link) 

Upload 11.00990                                               9:00 AM

Upload tr11.09907                                               9:00 AM

Upload jud 11 uur8                                              9:00 AM

Upload loc10 11                                              9:00 AM

File: TCXO 5g aa, TXCO 5g yy, TXCO 5g an8     

Pump inventory &&& management
Fuel
Type
Sale
&&&&&&&&&&&&&&&& .. 
"\*w " &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
len()
某些文本行在我要复制的文本之前可能有另一个(文本),但不会有字符串(nnnn/yyyy)

因此,这行在“nnnn”之前有文本,我想忽略它,也要忽略第一个“/”,也要忽略“/”之后的任何文本。“基本上,我只想复制和写入“/”和第一个“/”之间的所有内容”)

我想我可以安装程序包pdfgrep,然后使用以下命令:

find /path -iname '*.pdf' -exec pdfgrep pattern {} +
但我不知道如何设定模式。有没有办法只为这个字符串nnnn/yyyy grep

我读到我可以使用python将pdf转换为文本,但还不确定如何做到这一点


所有考虑、想法或其他值得赞赏的内容=)

请编辑您的Q,将您的样本输出包含在样本输入中
grep-o regex file.pdf>file.txt可能是您所需要的全部,但现在还不能确定。Good luck.grep-o regex file.pdf>file.txt不会产生任何结果。当我使用#ls-als和更多命令进行检查时,输出是0字节和一个空文件