Web crawler BrowserState历史和;搜索中的薄页

Web crawler BrowserState历史和;搜索中的薄页,web-crawler,history.js,browser-state,Web Crawler,History.js,Browser State,我正在寻找一些关于实现BrowserState历史的最佳方法的意见 目前情况下,我的电子商务网站目前正在使用的url哈希驱动。每当用户更改结果时,页面将向url添加一些哈希值并重新加载结果。例如: /products/ click button -> /products/#button=1 click sort -> /products/#button=1&sort=4 click category -> /products/#button=1&sort=4&

我正在寻找一些关于实现BrowserState历史的最佳方法的意见

目前情况下,我的电子商务网站目前正在使用的url哈希驱动。每当用户更改结果时,页面将向url添加一些哈希值并重新加载结果。例如:

/products/ 
click button -> /products/#button=1
click sort -> /products/#button=1&sort=4
click category -> /products/#button=1&sort=4&cat=2
click pagination -> /products/#button=1&sort=4&cat=2&page=2
如果用户共享此链接,则正确的结果将显示为显示的结果。然而,目前我的规范标签将搜索引擎指向/products/,因此错过了许多从页面抓取的产品

我看到有两个选项可以正确爬网这些内容:

  • 使用Ajax爬行-
  • (例如/产品/!#按钮=1&排序=4&类别=2&页面=2)

    优点:-产品URL确实会被爬网。 缺点:-页面标题、元描述和内容可能重复。这是否会导致对具有重复内容的精简页面进行爬网时出现问题

  • BrowserState历史-
  • <>我认为使用的选项是历史,因为它支持所有浏览器版本。 (例如/产品/按钮\ 1/分类\ 4/类别\ 2/页面\ 2/)

    优点:产品被爬网,每个页面都可以创建独特的内容,清晰的url结构 缺点:薄页

    如果您对以上想法有任何反馈,我们将不胜感激

    非常感谢