Javascript 刮取包含混合内容的页面集的最佳方法
我试着给大家展示一下办公室里午餐地点的清单和他们今天的菜单。但问题是提供午餐菜单的网站并不总是提供相同的内容 例如,一些网站提供了很好的JSON输出,它分别提供英语/芬兰语课程名称,我需要的一切都可以得到。还有一些像这样的 但是,其他人并不总是有一个好的输出。内容以简单的HTML格式显示,英文和芬兰食品名称没有准确的顺序。此外,食物属性(L、VL、VS、G等)与食物名称一样都是普通文本 在您看来,将所有这些可用数据以不同格式刮取并转化为可用数据的最佳方法是什么?我试着用Node.js(&phantomjs,等等)制作一个刮刀,但它只适用于一个网站,而且在食物名称的情况下并不准确Javascript 刮取包含混合内容的页面集的最佳方法,javascript,json,node.js,web-scraping,web-crawler,Javascript,Json,Node.js,Web Scraping,Web Crawler,我试着给大家展示一下办公室里午餐地点的清单和他们今天的菜单。但问题是提供午餐菜单的网站并不总是提供相同的内容 例如,一些网站提供了很好的JSON输出,它分别提供英语/芬兰语课程名称,我需要的一切都可以得到。还有一些像这样的 但是,其他人并不总是有一个好的输出。内容以简单的HTML格式显示,英文和芬兰食品名称没有准确的顺序。此外,食物属性(L、VL、VS、G等)与食物名称一样都是普通文本 在您看来,将所有这些可用数据以不同格式刮取并转化为可用数据的最佳方法是什么?我试着用Node.js(&phan
提前感谢。您可以使用这样的东西,它们更易于使用,并且它们为您提供了API来更新您的站点。
请记住,它们最适合于表格数据内容。对于这个问题,我有一个简单的算法解决方案,如果有一个所有可用食物名称的列表,这会非常有帮助,您可以在文档中找到食物名称(今天) 如果没有任何食物清单,您可以使用TF/IDF。TF/IDF允许在当前文档和其他文档中计算文档中单词的分数。但这个解决方案需要足够的数据才能工作 我认为最好的解决方案是这样的:
如果您可以使用PHP,那么将是一个很好的选择。这两个将提供一个类似jQuery的路径查找器和一个围绕HTTP的漂亮包装器。您遇到了一个非常困难的问题。不幸的是,没有简单的解决办法 实际上有两个不同的部分需要解决: