Google sheets NCBI网站特定页面上的IMPORTXML返回不适用-是否受刮削保护？_Google Sheets_Google Sheets Formula_Google Sheets Importxml

Google sheets NCBI网站特定页面上的IMPORTXML返回不适用-是否受刮削保护？

google-sheets

Google sheets NCBI网站特定页面上的IMPORTXML返回不适用-是否受刮削保护？,google-sheets,google-sheets-formula,google-sheets-importxml,Google Sheets,Google Sheets Formula,Google Sheets Importxml,我正在尝试使用IMPORTXML将这个页面刮取下来，以获得官方全名，也就是我们所知道的和其他一些信息对于官方全名，例如甘油醛-3-磷酸脱氢酶，我尝试以下方法： =IMPORTXML("https://www.ncbi.nlm.nih.gov/gene/55054", "//*[@id="summaryDl"]/dd[2]/text()") 给我不适用所以我试着改变，使用我放置URL和查询的单元格，用所有可能的方式改变查询：D 我注意到我可以使用IMPORTHTML，在页面或importrs

我正在尝试使用IMPORTXML将这个页面刮取下来，以获得官方全名，也就是我们所知道的和其他一些信息

对于官方全名，例如甘油醛-3-磷酸脱氢酶，我尝试以下方法：

=IMPORTXML("https://www.ncbi.nlm.nih.gov/gene/55054", "//*[@id="summaryDl"]/dd[2]/text()")

给我不适用

所以我试着改变，使用我放置URL和查询的单元格，用所有可能的方式改变查询：D

我注意到我可以使用IMPORTHTML，在页面或importrs中有一些关于表的信息，但无法获得我想要的信息。因此，我认为网站不会阻止刮擦

我认为这是一个JS或XML问题，但在我看来似乎不是这样……也许我遗漏了什么。我甚至尝试从别人的代码中使用IMPORTJSON，但老实说，我无法得到任何可能太复杂而无法使用的东西

我在这里真的被阻止了，所以如果有人能帮忙…？

您可以尝试直接删除源代码：

=ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 10000, 1)

然后做一些类似的事情来获得价值：

=REGEXREPLACE(QUERY(
 {{""; ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 500, 1)},
      {ARRAY_CONSTRAIN(IMPORTDATA("https://www.ncbi.nlm.nih.gov/gene/55054"), 500, 1); ""}},
 "select Col2 where Col1 contains'Also known as'"), "<dd>|</dd>", "")

伟大的很抱歉这么问，但是……我不明白！这是怎么回事？我试图修改以获得正式的全名，但找不到解决方案lol…ARRAY_Constraint和REGEXPLACE的目的是什么？REGEXREPLACE就像是一个替代品，以摆脱那些HTML标记。ARRAY_Constraint是限制器，因为整个源代码太大，无法导入，所以我们只导入前500行代码，因为这是我们需要的，只有一列。是的，官方全名不能被刮取，因为源代码中有点缺失-它可能是通过JS注入的，所以它不在那里，但其余的是有点getableOfficial全名不能被刮取