Artificial intelligence 我们可以通过对网站内容进行爬网，以编程方式确定网站的组件吗？_Artificial Intelligence_Web Crawler_Analysis

Artificial intelligence 我们可以通过对网站内容进行爬网，以编程方式确定网站的组件吗？

artificial-intelligence web-crawler

Artificial intelligence 我们可以通过对网站内容进行爬网，以编程方式确定网站的组件吗？,artificial-intelligence,web-crawler,analysis,Artificial Intelligence,Web Crawler,Analysis,我们可以通过对网站内容进行爬网，以编程方式确定网站的组件吗我理解这似乎是不可能的，但我认为在代码中任何事情都是可能的。我正在尝试头脑风暴的想法，根据这些想法，如果我已经对网站的所有数据进行了爬网，我可以确定网站的各个组成部分我对确定组件感兴趣，例如，在电子商务网站的情况下，我希望确定或确定： 1.登录Url 2.注册网址 3.仪表板url 4.添加订单url 5.购物车网址 6.注销Url 还有更多我们可能掌握的信息包括： 1.会话、cookie、元数据、， 2.反向链接（内部和外部） 3

我们可以通过对网站内容进行爬网，以编程方式确定网站的组件吗

我理解这似乎是不可能的，但我认为在代码中任何事情都是可能的。我正在尝试头脑风暴的想法，根据这些想法，如果我已经对网站的所有数据进行了爬网，我可以确定网站的各个组成部分

我对确定组件感兴趣，例如，在电子商务网站的情况下，我希望确定或确定： 1.登录Url 2.注册网址 3.仪表板url 4.添加订单url 5.购物车网址 6.注销Url 还有更多

我们可能掌握的信息包括： 1.会话、cookie、元数据、， 2.反向链接（内部和外部） 3.页面中的表单、页面中的字段等

任何想法或指针都将非常有用。

您可以通过对域进行爬网来获得原始HTML结果。对于您的URL获取问题：是的，您可以通过一个系统根据URL和HTML元素来确定登录、注册等URL，该系统可以通过一些实验来设计

从网上商店抓取礼物的图片、价格等，这是可行的。我们给出了相对性点；例如，对于price，如果文本包含“price”，则得到2分，如果文本包含“$”或“€”，则得到3分，等等。我试着说，您需要对数据进行实验。据我所知，您可以获取表单、Javascript行等，也可以在这些上进行实验

如果您要使用java，我建议您使用Crawler4jApache Nutch也不错，你可以从我个人资料中的问题中获得关于“使用Nutch保存原始html”的信息，但这是一个非常大的项目，我认为不值得处理所有这些东西，对于您的情况。

也许递归地遵循DOM中的所有

标记？我对爬行没有问题。我已经在使用一个自行开发的。然而，相对性的概念绝对是迷人的，是的，我同意我需要进行实验。非常感谢。