Javascript 将import.io与鼠标悬停文本一起使用_Javascript_Html_Dom_Web Crawler_Import.io

Javascript 将import.io与鼠标悬停文本一起使用

javascript html dom web-crawler

Javascript 将import.io与鼠标悬停文本一起使用,javascript,html,dom,web-crawler,import.io,Javascript,Html,Dom,Web Crawler,Import.io,长期观众，第一次海报我有点麻烦。。。我注意到，现在抓取网页（）时，显然可以将鼠标移到文本上，但我不知道该怎么做我正在尝试这样做的页面类型是这样的（我将使用它在许多类似的页面上爬行）：我想要圆图的每个部分中的数字，以及图中这些类别的标题。此文本仅出现在鼠标上方。我无法在制作爬虫时显示此文本，更不用说删除数据了或者，如果我可以使用页面源来提取数据，我可以获得信息，因为数据在其他代码将其更改为图形之前就已经存在了。但是，这个功能在爬虫上似乎还不可用，只有提取器（据我所知）有关于如何直接执行此操

长期观众，第一次海报

我有点麻烦。。。我注意到，现在抓取网页（）时，显然可以将鼠标移到文本上，但我不知道该怎么做

我正在尝试这样做的页面类型是这样的（我将使用它在许多类似的页面上爬行）：我想要圆图的每个部分中的数字，以及图中这些类别的标题。此文本仅出现在鼠标上方。我无法在制作爬虫时显示此文本，更不用说删除数据了

或者，如果我可以使用页面源来提取数据，我可以获得信息，因为数据在其他代码将其更改为图形之前就已经存在了。但是，这个功能在爬虫上似乎还不可用，只有提取器（据我所知）

有关于如何直接执行此操作的帮助吗？或者可能有一些解决办法？也许import.io不是我应该使用的，但如果可以的话，那就太好了

提前谢谢

在import.io中没有“开箱即用”的方法来实现这一点，但是如果您对JS稍有了解，就有一个解决方法

如果使用自定义xpath

//*[@id='small\u circle']

，则可以获得包含所需信息的json数据

它的格式如下：

[...{
"category_id":26,
"label":"Crafts",
"projects_backed":0,
"color":"rgba(0,0,0,0.0)",
"path":"/profile/1874304670?category_id=26&ref=wheel",
"data":1
}, 
...
]

你可以在爬网后做一些后处理，过滤掉你想要的相关部分，或者用JS解析，只需使用“label”和“projects\u backed”键。

谢谢你的快速回复！做一些后处理当然不是问题，我会非常高兴这个解决方案！但当我刚刚尝试时，它提取了图形所在的DOM元素，而没有显示从HTML源代码中提取的数据。我试着在页面上启用JS和不启用JS的情况下创建爬虫程序，但都没有像您显示的那样为我提供正确的数据。您是否启用了一些我需要启用的设置？我可以在不使用xpath和不启用JS的情况下获取数据。您只需单击圆圈（圆圈中没有呈现任何内容），它将提取隐藏在包含js数据的页面中的文本。它以

//谢谢你！通过打开HTML源文件，我知道代码是什么样子的，但在关闭JS后，我从未想过选择“文本”而不是“HTML”作为数据类型。非常感谢！：）