Java 报废问题(数据ID)

Java 报废问题(数据ID),java,html,automation,web-scraping,imacros,Java,Html,Automation,Web Scraping,Imacros,我正试图根据我收集到的数据整理一个网站并编制一份电子表格。 我正在努力搜索的网站是。 我对抓取不太有经验,但我的方法是在html标记中找到唯一的属性,并使用它来抓取我想要的内容。 因此,对于这个网站,我的方法是首先在点击其中一个体验时,抓取一个页面的URL列表,例如:,,然后在这个列表中循环,每次抓取相关属性。 然而,我在第一步就被卡住了,因为我没有使用简单的“a href”标记,而是遇到了“data reactid”标记,这会混淆问题 我用iMacros进行抓取,但我现在对Java相当在行,所

我正试图根据我收集到的数据整理一个网站并编制一份电子表格。
我正在努力搜索的网站是。
我对抓取不太有经验,但我的方法是在html标记中找到唯一的属性,并使用它来抓取我想要的内容。
因此,对于这个网站,我的方法是首先在点击其中一个体验时,抓取一个页面的URL列表,例如:,
,然后在这个列表中循环,每次抓取相关属性。 然而,我在第一步就被卡住了,因为我没有使用简单的“a href”标记,而是遇到了“data reactid”标记,这会混淆问题

我用iMacros进行抓取,但我现在对Java相当在行,所以如果需要的话,我会用Java学习抓取(这可能是因为iMacros非常有限)

我的问题是,这些“数据反应ID”标签是如何工作的,因此,我如何将它们用于我的抓取目的

此外,如果这是XY问题,请让我知道并建议更好的方法


谢谢你的阅读

处理刮取的最简单方法是将页面视为一个大字符串(因为最终它就是这样)。您可以在该字符串中搜索某些内容(如href=)以获取链接。您还可以智能地假设a标记中的任何内容都与链接相关,并获取该链接

您真的不必理解HTML,也不必理解页面或任何其他css或标记是如何工作的,您只需要确定您想要的文本周围有哪些可识别的字符串组合。我要说的是,用Java实现这一点可能比使用IMacro容易得多,而且可能更准确

另一种处理方法是将整个页面视为XML文档,这需要更多的HTML和XML知识。这…并不总是适用于HTML,特别是当它比较旧或格式不好时,因此字符串方法更容易。您可以从现有的各种XML映射库中获得一些实用工具,但在其他方面与上面的类似