Web scraping 从网页中获取正确的数据_Web Scraping_Comments_Extract_Export To Excel

Web scraping 从网页中获取正确的数据

web-scraping

Web scraping 从网页中获取正确的数据,web-scraping,comments,extract,export-to-excel,Web Scraping,Comments,Extract,Export To Excel,我希望从网站中提取一些数据：从我这里获得以下信息很有价值： "<h3 class="ca56269332 comment-noavatar listh3 comment-noavatar-author"> vārds </h3>" ” vārds " 在本例中，“ca56269332”和“vārds”是动态变量对我来说，我想实现以下目标： "<h3 class="* comment-noavatar listh3 comment-noavatar-auth

我希望从网站中提取一些数据：

从我这里获得以下信息很有价值：

"<h3 class="ca56269332 comment-noavatar listh3 comment-noavatar-author">
vārds
</h3>"

”
vārds
"

在本例中，“ca56269332”和“vārds”是动态变量

对我来说，我想实现以下目标：

"<h3 class="* comment-noavatar listh3 comment-noavatar-author">
*
</h3>"

”
*
"

其中“*”表示动态值，并导出到某种excel或数据文件中

我还想提取多个页面，如：

/tirgus liberalizacija ka latvija nonaca krievijas凝视着juga.d？id=44233361&com=1&s=5&no=0 /tirgus liberalizacija ka latvija nonaca krievijas凝视着juga.d？id=44233361&com=1&s=5&no=20 /tirgus liberalizacija ka latvija nonaca krievijas凝视着juga.d？id=44233361&com=1&s=5&no=40

ect

任何人都可以分享一些有价值的资源来实现这一点，我知道你可以用PHP文件来实现，但我想要更简单的解决方案，因为我的目标不是将其发布到网页，而是将其作为我的研究项目的源数据文件

如何提取动态数据以避免保存每个页面及其包含的所有无用信息，并使之更容易，避免手动处理大量web评论？

基本上，您需要A）使用DOM解析器，B）以某种方式确定要提取的特定DOM元素。您将使用什么语言？这个太宽了。。。决定要使用哪种语言，然后查找如何解析该语言的DOM。事实上，已经有成千上万的答案了