Artificial intelligence 我们可以通过对网站内容进行爬网,以编程方式确定网站的组件吗?

Artificial intelligence 我们可以通过对网站内容进行爬网,以编程方式确定网站的组件吗?,artificial-intelligence,web-crawler,analysis,Artificial Intelligence,Web Crawler,Analysis,我们可以通过对网站内容进行爬网,以编程方式确定网站的组件吗 我理解这似乎是不可能的,但我认为在代码中任何事情都是可能的。我正在尝试头脑风暴的想法,根据这些想法,如果我已经对网站的所有数据进行了爬网,我可以确定网站的各个组成部分 我对确定组件感兴趣,例如,在电子商务网站的情况下,我希望确定或确定: 1.登录Url 2.注册网址 3.仪表板url 4.添加订单url 5.购物车网址 6.注销Url 还有更多 我们可能掌握的信息包括: 1.会话、cookie、元数据、, 2.反向链接(内部和外部) 3

我们可以通过对网站内容进行爬网,以编程方式确定网站的组件吗

我理解这似乎是不可能的,但我认为在代码中任何事情都是可能的。我正在尝试头脑风暴的想法,根据这些想法,如果我已经对网站的所有数据进行了爬网,我可以确定网站的各个组成部分

我对确定组件感兴趣,例如,在电子商务网站的情况下,我希望确定或确定: 1.登录Url 2.注册网址 3.仪表板url 4.添加订单url 5.购物车网址 6.注销Url 还有更多

我们可能掌握的信息包括: 1.会话、cookie、元数据、, 2.反向链接(内部和外部) 3.页面中的表单、页面中的字段等


任何想法或指针都将非常有用。

您可以通过对域进行爬网来获得原始HTML结果。对于您的URL获取问题:是的,您可以通过一个系统根据URL和HTML元素来确定登录、注册等URL,该系统可以通过一些实验来设计

从网上商店抓取礼物的图片、价格等,这是可行的。我们给出了相对性点;例如,对于price,如果文本包含“price”,则得到2分,如果文本包含“$”或“€”,则得到3分,等等。我试着说,您需要对数据进行实验。 据我所知,您可以获取表单、Javascript行等,也可以在这些上进行实验


如果您要使用java,我建议您使用Crawler4jApache Nutch也不错,你可以从我个人资料中的问题中获得关于“使用Nutch保存原始html”的信息,但这是一个非常大的项目,我认为不值得处理所有这些东西,对于您的情况。

也许递归地遵循DOM中的所有
标记?我对爬行没有问题。我已经在使用一个自行开发的。然而,相对性的概念绝对是迷人的,是的,我同意我需要进行实验。非常感谢。