Parsing 用于网站解析的高级Excel/Visual Basic

Parsing 用于网站解析的高级Excel/Visual Basic,parsing,wikipedia,wikimedia,Parsing,Wikipedia,Wikimedia,我在excel文档中有500个Wikipedia/Wikimedia Wiki、Talk Pages和history Pages的链接,我想对这些链接进行解析,以确定有多少Wiki在Talk Pages中提到了“广告”或“促销”,平均Wiki的长度,编辑频率等 我已经知道了如何编写一个VisualBasics用户定义函数来获得完整的HTML。在两个标签或标识符之间是否有插件或其他方式来获取屏幕上显示的文本,以便我提取所需信息 我是一名商业专业人士,与专业开发人员相比,我的编码经验非常有限。但是如

我在excel文档中有500个Wikipedia/Wikimedia Wiki、Talk Pages和history Pages的链接,我想对这些链接进行解析,以确定有多少Wiki在Talk Pages中提到了“广告”或“促销”,平均Wiki的长度,编辑频率等

我已经知道了如何编写一个VisualBasics用户定义函数来获得完整的HTML。在两个标签或标识符之间是否有插件或其他方式来获取屏幕上显示的文本,以便我提取所需信息


我是一名商业专业人士,与专业开发人员相比,我的编码经验非常有限。但是如果你能给我指出正确的方向和一些好的教程,我可以学习。如果有人能帮忙的话,我也会有兴趣给别人一点钱。

你可以使用XML解析器和正则表达式来搜索HTML文档中的文本

要获取浏览器中显示的文本,请编写一个函数删除所有标记。尽管如此,它可能并不总是准确的,因为CSS和Javascript可以改变屏幕上可见的内容