Web crawler 为什么Bing crawler不能获取我的网页的动态内容?

Web crawler 为什么Bing crawler不能获取我的网页的动态内容?,web-crawler,single-page-application,Web Crawler,Single Page Application,我的SPA网站(基于Node/Express/Mongo/Angular X)已经启动并运行。我创建了一个sitemap.xml并提交给了微软Bing,从服务器日志中,我看到他们开始爬行。但是,我注意到调用了页面URL,但没有调用该页面的关联API。因此,基本上它只是索引每个页面的静态框架,而不是动态的真实内容 我在谷歌上搜索,看到有人说“谷歌不能为动态内容编制索引”,如本文所述。然而,我也看到其他人说,爬虫只是一个人浏览,它应该得到它的动态内容 我很困惑。有人能澄清一下吗?如何修复它 网络爬虫

我的SPA网站(基于Node/Express/Mongo/Angular X)已经启动并运行。我创建了一个sitemap.xml并提交给了微软Bing,从服务器日志中,我看到他们开始爬行。但是,我注意到调用了页面URL,但没有调用该页面的关联API。因此,基本上它只是索引每个页面的静态框架,而不是动态的真实内容

我在谷歌上搜索,看到有人说“谷歌不能为动态内容编制索引”,如本文所述。然而,我也看到其他人说,爬虫只是一个人浏览,它应该得到它的动态内容


我很困惑。有人能澄清一下吗?如何修复它

网络爬虫不执行JavaScript。谷歌可能有一个更复杂的爬虫程序,但大多数没有。对于数以万亿计的页面来说,它的计算量太大了。为爬虫添加一个静态链接。看

Bing不会为JavaScript生成的内容编制索引

现场技术 你网站上使用的技术有时会阻止Bingbot找到你的内容。富媒体(Flash、JavaScript等)可能导致Bing无法在导航中爬行,或无法看到网页中嵌入的内容。为了避免任何问题,你应该考虑实现一个低级的体验,它包含与富版本相同的内容元素和链接。这将允许未启用富媒体的任何人(Bingbot)查看您的网站并与之交互

富媒体警告——不要在JavaScript中隐藏指向内容的链接

富媒体警告——不要隐藏Javascript/flash/Silverlight中的链接;也不要让这些内容出现

底层体验增强了可发现性–避免在Flash或JavaScript中存储内容–这些块爬虫形成查找内容的形式


网络爬虫不执行JavaScript。谷歌可能有一个更复杂的爬虫程序,但大多数没有。对于数以万亿计的页面来说,它的计算量太大了。为爬虫添加一个静态链接。请看@Chloe“网络爬虫不执行JavaScript”不再是真的。谢谢,克洛伊。我还是很困惑。我可以理解,如果需要用户交互,网络爬虫不会执行JavaScript。然而,在我的例子中,我的页面上没有JavaScript,但我使用Angular,API通常在ngInit事件上调用,不需要任何用户交互。另外,你所说的“为爬虫添加一个静态链接”是什么意思?你能举个例子吗?Bing和Google都说他们遵循一些javascript。我知道我有一些页面,google和bing都索引了只能通过javascript获得的内容。话虽如此,网站地图可以让开发者更容易获得搜索引擎索引的内容。仅仅因为bing说“有时会造成困难”并不意味着“bing不索引JS生成的内容”。我有bing和google都能找到的页面,这些页面只能通过javascript访问。BingBot最明确地执行javascript——我看到很多来自BingBot的GET请求在我的服务器上点击动态构建的分析URL。(这有点烦人,因为URL应该只是一个POST端点,所以频繁的GET请求会把错误日志弄得乱七八糟。)