提取表perl_Perl_Extract_Text Mining_Web Scraping

提取表perl

perl web-scraping

提取表perl,perl,extract,text-mining,web-scraping,Perl,Extract,Text Mining,Web Scraping,我开始学习Perl语言，因为它对我的研究非常有用。我不知道如何从文本文件中提取表我有一个文件夹，其中包含一定数量的按顺序命名的文本文件，如下所示： 1.txt 2.txt 3.txt ... ... 1000.txt 这些.txt格式文件的示例可在以下链接中找到：同一文件的.htm版本可在以下链接中找到：现在，我在这些文件中查找的表有时被称为： Non-Qualified Deferred Compensation Table 其他一些具有小的变化，如： Non Qualified

我开始学习Perl语言，因为它对我的研究非常有用。我不知道如何从文本文件中提取表

我有一个文件夹，其中包含一定数量的按顺序命名的文本文件，如下所示：

1.txt
2.txt
3.txt
...
...
1000.txt

这些.txt格式文件的示例可在以下链接中找到：

同一文件的.htm版本可在以下链接中找到：

现在，我在这些文件中查找的表有时被称为：

Non-Qualified Deferred Compensation Table

其他一些具有小的变化，如：

Non Qualified Deferred Compensation Table

基本上，此表的标题中包含以下文字（有时可能因文件而异）：

“捐款”
“总收益”
“提取/分配总额”

和其他标题（每个文件略有不同，但这些词几乎出现在每个.txt文件的每个“延迟补偿表”中（查看指向.htm文件的链接和.txt文件链接以获取示例-搜索文件中的“非限定延迟补偿表”）。在这些标题下，对于特定数量的管理器，有一些金额（表行数因文件而异）

有没有办法创建一个perl脚本，从每个文件中提取延迟补偿表，并生成一个.csv输出，其中存储了所有延迟补偿表（下面的标题和数字），以及每个表对.txt文件的引用

输出文件中的类似内容：

File    Manager Name    Contributions   Aggregate Earnings  Aggregate Withdrawal/Distributions
1.txt   Manager1    00000   00000   00000
1.txt   Manager2    00000   00000   00000
1.txt   Manager3    00000   00000   00000
2.txt   Manager1    00000   00000   00000
2.txt   Manager2    00000   00000   00000
2.txt   Manager3    00000   00000   00000
3.txt   Manager1    00000   00000   00000
3.txt   Manager2    00000   00000   00000
3.txt   Manager3    00000   00000   00000

如果您能在这方面帮助我，我将不胜感激。我是新来的，我正在尝试学习Perl，但这项具体任务对我来说确实非常困难。

Perl可以轻松实现这一点

您应该看看以下Perl模块：

您将在

上找到大量示例，我最喜欢的是使用Mojo:：DOM。XML:：XPath有一些问题，自2003年以来一直没有更新过。我建议您执行XPath查询。（它还支持其他类型的XML解析。）您好，非常感谢您的回复。如果我真的尝试从.txt文件中提取表，会怎么样？是否更容易找到一个perl脚本？在这种情况下，不需要WWW:：MechanizeHi。我尝试了任何可能的事情。这真的超出了我的能力。我愿意花钱请人为我做这项工作。有什么建议吗作为一名专业而认真的PERL专家？非常感谢你，StefanoFYI：不要使用正则表达式。嗨，Sputnik，我做这项研究是为了了解高管薪酬是如何工作的。你愿意帮助我编写代码来捕获上面的表吗？我非常坚持这一点。谢谢你，Stefano