iMacros-如何使用唯一的周围html标记URL?

iMacros-如何使用唯一的周围html标记URL?,macros,web-scraping,imacros,Macros,Web Scraping,Imacros,我需要从下面的代码中提取“” 这个代码段重复了很多次,我需要URL..Some.Name.X 在我感兴趣的每个代码段之间都有其他代码段,它们周围的html非常不同。我不需要那些其他段中的..Some.Name.x URL 以下是我需要的URL所特有的:“您需要使用一些脚本。 我的回答使用jQuery var listoflinks = []; //array containing your links $('a[href*="somesite.com"]').each(function () {

我需要从下面的代码中提取“”

这个代码段重复了很多次,我需要URL..Some.Name.X

在我感兴趣的每个代码段之间都有其他代码段,它们周围的html非常不同。我不需要那些其他段中的..Some.Name.x URL


以下是我需要的URL所特有的:
“您需要使用一些脚本。
我的回答使用jQuery

var listoflinks = []; //array containing your links
$('a[href*="somesite.com"]').each(function () { // for each link that contains somesite.com in href
    var j = $(this).attr('href'); //put the whole href in a variable
    listoflinks.push(j); // put all values in an array
});
您将得到一个包含所有要查找的href值的数组

如果您想查看示例和/或想使用脚本,可以转到以下位置:

编辑 您的代码仍然不够清晰,但希望这能有所帮助

<a class="sibling a" href="link">sibling a</a><br />
<div class="sibling div"><br />
    <a class="child a" href="start-with-link/correct-link">Child a</a><br />
</div><br />
查看详细示例

尽管如此,您可以添加更多的兄弟元素和子元素,以防您忘记提及其他html实体

<a class="-cx-PRIVATE-uiImageBlock__image" ------------------ <div class="clearfix pvm"> <a class="-cx-PRIVATE-uiImageBlock__image -cx-PRIVATE-uiImageBlock__largeImage lfloat" aria-hidden="true" tabindex="-1" href="somesite.com/some.name.123">

我不知道如何用iMacros标记前面的HTML,或者如何用jQuery标记,因为每次结构都会有点不同,但您可以对此进行修改


使用IMACRO保存网页。编写程序(c等)读取每个保存的文件,并写入“cx-PRIVATE-uiImageBlock_u”图像后面的URL“归档。将该URL列表添加到iMacro,或让iMacro读取该文件,然后处理iMacro中的每个URL

我的代码不会显示。我有
围绕它。我还尝试了“代码”按钮。下面是代码:
“tabindex=“-1”aria hidden=“true”>…(更多html)“data hovercard=“/ajax/hovercard/user.php?id=1*******1”>一些名称
您应该阅读格式说明。。。哦,这不是数据挖掘。这是网络抓取。数据挖掘是对数据的高级统计分析,而不是收集。我阅读了格式化说明,您可以清楚地看到
我放在那里,根据常见问题页面。我在“代码”按钮失败后试过了。现在它被突出显示为代码(你把它们放在里面了),它把它去掉了。谢谢你的帮助。看起来它会抓取所有包含“somesitee.com”的链接,但我只想要那些被我包含的代码(在注释中)包围的链接。其他链接(NNEEED和许多链接)周围有不同的代码。您发布的内容与哪些内容相关?css类?哪一个?身份证?哪一个?你可以做嵌套。每个(函数)和IF等等。这个代码中的URL更好。(它的代码放在上面的中间。)这部分代码对于我需要的URL是唯一的:>在我看来,仍然不够好的代码。你需要提供一个清晰的结构。我希望你做到了,我希望现在你有了答案。我正在使用------------------来分隔小代码块(唯一的部分)从代码段来看,它是源代码。唯一的部分总是在我想要的特定URL之前,在其他地方找不到。我看不到任何其他唯一的东西可以搜索我想要的URL。(我不能使用URL模式匹配-有很多方法都是以相同的方式开始的。)
var listoflinks = []; //array containing your links
$('a[class="sibling a"]').siblings('div[class="sibling div"]').children('a[class="child a"]').each(function () {
    if ((($(this).attr("href")).substring(0,15))=="start-with-link"){
    var i = $(this).attr("href");
    listoflinks.push(i);
    }
    });
<a class="-cx-PRIVATE-uiImageBlock__image" ------------------ <div class="clearfix pvm"> <a class="-cx-PRIVATE-uiImageBlock__image -cx-PRIVATE-uiImageBlock__largeImage lfloat" aria-hidden="true" tabindex="-1" href="somesite.com/some.name.123">