Web scraping 从网页中获取正确的数据

Web scraping 从网页中获取正确的数据,web-scraping,comments,extract,export-to-excel,Web Scraping,Comments,Extract,Export To Excel,我希望从网站中提取一些数据: 从我这里获得以下信息很有价值: "<h3 class="ca56269332 comment-noavatar listh3 comment-noavatar-author"> vārds </h3>" ” vārds " 在本例中,“ca56269332”和“vārds”是动态变量 对我来说,我想实现以下目标: "<h3 class="* comment-noavatar listh3 comment-noavatar-auth

我希望从网站中提取一些数据:

从我这里获得以下信息很有价值:

"<h3 class="ca56269332 comment-noavatar listh3 comment-noavatar-author">
vārds
</h3>"
”
vārds
"
在本例中,“ca56269332”和“vārds”是动态变量

对我来说,我想实现以下目标:

"<h3 class="* comment-noavatar listh3 comment-noavatar-author">
*
</h3>"
”
*
"
其中“*”表示动态值,并导出到某种excel或数据文件中

我还想提取多个页面,如:

/tirgus liberalizacija ka latvija nonaca krievijas凝视着juga.d?id=44233361&com=1&s=5&no=0 /tirgus liberalizacija ka latvija nonaca krievijas凝视着juga.d?id=44233361&com=1&s=5&no=20 /tirgus liberalizacija ka latvija nonaca krievijas凝视着juga.d?id=44233361&com=1&s=5&no=40

ect

任何人都可以分享一些有价值的资源来实现这一点,我知道你可以用PHP文件来实现,但我想要更简单的解决方案,因为我的目标不是将其发布到网页,而是将其作为我的研究项目的源数据文件


如何提取动态数据以避免保存每个页面及其包含的所有无用信息,并使之更容易,避免手动处理大量web评论?

基本上,您需要A)使用DOM解析器,B)以某种方式确定要提取的特定DOM元素。您将使用什么语言?这个太宽了。。。决定要使用哪种语言,然后查找如何解析该语言的DOM。事实上,已经有成千上万的答案了