Google sheets 从表中提取URL,使用=VLOOKUP
正在尝试从此链接获取url 我使用以下公式:=VLOOKUP(“网站”,ImportXML(A1,(//table[@id='tableTSDContent']//tr)”),2,0)Google sheets 从表中提取URL,使用=VLOOKUP,google-sheets,google-sheets-formula,gs-vlookup,google-sheets-vlookup,Google Sheets,Google Sheets Formula,Gs Vlookup,Google Sheets Vlookup,正在尝试从此链接获取url 我使用以下公式:=VLOOKUP(“网站”,ImportXML(A1,(//table[@id='tableTSDContent']//tr)”),2,0) 但不幸的是,它没有拉出url。如果您能帮我提取有问题的url,我将不胜感激。我尝试使用APIPheny加载项导入数据。在在线目录列表之后,我看到一个单元格上写着“Google bot blocked”或类似的内容 然后我转到了该站点的robots.txt文件(),上面写着: User-agent: * Disa
但不幸的是,它没有拉出url。如果您能帮我提取有问题的url,我将不胜感激。我尝试使用APIPheny加载项导入数据。在
在线目录列表
之后,我看到一个单元格上写着“Google bot blocked”或类似的内容
然后我转到了该站点的robots.txt文件(),上面写着:
User-agent: *
Disallow: /onlinedirectories/tsd_view.php*
Disallow: /onlinedirectories/tsd_search.php*
Disallow: /onlinedirectories/tsd_listings/tsd_view.fpl*
Disallow: /onlinedirectories/tsd_listings/tsd_search.fpl*
Disallow: http://www.atanet.org/bin/mpg.pl/28644.html
Disallow: /onlinedirectories/tsd_corp_listings/*
Disallow: /bin
Disallow: /division_calendar
User-agent: Googlebot
Disallow: /onlinedirectories/tsd_view.php*
Disallow: /onlinedirectories/tsd_search.php*
Disallow: /onlinedirectories/tsd_listings/tsd_view.fpl*
Disallow: /onlinedirectories/tsd_listings/tsd_search.fpl*
Disallow: /*division_calendar*
Disallow: /*bin*
Disallow: http://www.atanet.org/bin/mpg.pl/28644.html
User-agent: ITABot
Disallow: /onlinedirectories
我还认为这意味着Google Sheets用户代理与搜索引擎(Googlebot)相同。如果是这种情况,那么使用Google Sheets,您在这里就不走运了,因为您想要的
tsd_view.php
是不允许的。很可能,这是因为他们不想让谷歌(或其他搜索引擎)索引人们的联系信息。当然,如果你是一个恶意的webcrawler,你可以忽略robots.txt,但Googlebot是一个不错的机器人。我尝试使用APIPheny加载项导入数据。在在线目录列表
之后,我看到一个单元格上写着“Google bot blocked”或类似的内容
然后我转到了该站点的robots.txt文件(),上面写着:
User-agent: *
Disallow: /onlinedirectories/tsd_view.php*
Disallow: /onlinedirectories/tsd_search.php*
Disallow: /onlinedirectories/tsd_listings/tsd_view.fpl*
Disallow: /onlinedirectories/tsd_listings/tsd_search.fpl*
Disallow: http://www.atanet.org/bin/mpg.pl/28644.html
Disallow: /onlinedirectories/tsd_corp_listings/*
Disallow: /bin
Disallow: /division_calendar
User-agent: Googlebot
Disallow: /onlinedirectories/tsd_view.php*
Disallow: /onlinedirectories/tsd_search.php*
Disallow: /onlinedirectories/tsd_listings/tsd_view.fpl*
Disallow: /onlinedirectories/tsd_listings/tsd_search.fpl*
Disallow: /*division_calendar*
Disallow: /*bin*
Disallow: http://www.atanet.org/bin/mpg.pl/28644.html
User-agent: ITABot
Disallow: /onlinedirectories
我还认为这意味着Google Sheets用户代理与搜索引擎(Googlebot)相同。如果是这种情况,那么使用Google Sheets,您在这里就不走运了,因为您想要的tsd_view.php
是不允许的。很可能,这是因为他们不想让谷歌(或其他搜索引擎)索引人们的联系信息。当然,如果你是一个恶意的网络爬虫,你可以忽略robots.txt,但谷歌机器人是一个不错的机器人