在元标记中包含我需要在javascript中提取的信息_Javascript_Html_Dom_Web Scraping_Metadata

在元标记中包含我需要在javascript中提取的信息

javascript html dom web-scraping

在元标记中包含我需要在javascript中提取的信息,javascript,html,dom,web-scraping,metadata,Javascript,Html,Dom,Web Scraping,Metadata,正如标题所说，我有一个元标签，我需要刮取一些信息。这是从这个网站我试图提取作者的从属关系。我可以在使用谷歌开发工具和以下代码行中找到这些信息： document.getElementsByName('citation_author_institution') 然后我得到一个我认为是元素或节点的数组，看起来像这样： [<meta name="citation_author_institution" content="Columbia University, New York">

正如标题所说，我有一个元标签，我需要刮取一些信息。这是从这个网站我试图提取作者的从属关系。我可以在使用谷歌开发工具和以下代码行中找到这些信息：

document.getElementsByName('citation_author_institution')

然后我得到一个我认为是元素或节点的数组，看起来像这样：

[<meta name="citation_author_institution" content="Columbia University, New York">, <meta name="citation_author_institution" content="Columbia University, New York">, <meta name="citation_author_institution" content="Columbia University, New York">]

但这不起作用。有人能告诉我怎么做吗？

你很接近了。您需要做的是遍历节点列表：

    var elements = document.getElementsByName('citation_author_institution')
    var contents = []

    for (var i = 0; i < elements.length; i++) {
        contents.push(elements[i].content);
    }

    console.log(contents)

var elements=document.getElementsByName（'引用\作者\机构'）
var contents=[]
对于（var i=0；i


因此，内容将是您的内容列表。这里的例子
你非常接近。您需要做的是遍历节点列表：
    var elements = document.getElementsByName('citation_author_institution')
    var contents = []

    for (var i = 0; i < elements.length; i++) {
        contents.push(elements[i].content);
    }

    console.log(contents)

var elements=document.getElementsByName（'引用\作者\机构'）
var contents=[]
对于（var i=0；i

因此，内容将是您的内容列表。这里的例子
var作者=[]；
var elements=document.getElementsByName（“引文作者机构”）；
对于（var i=0；ivar作者=[]；
var elements=document.getElementsByName（“引文作者机构”）；
对于（var i=0；我会从getElementsByTagName开始，真的。理论上HTML中可能有更多同名元素。我会从getElementsByTagName开始，真的。理论上HTML中可能有更多同名元素。但是如果我这样做，它不会打印出数组中的所有内容吗？我的意思是：meta name=“引文作者机构”内容=“纽约哥伦比亚大学”>, , 但是如果我喜欢这个，它会打印出数组中的所有内容吗？我的意思是：元名称=“引文作者机构”内容=“纽约哥伦比亚大学”>, , 但是如果我喜欢这个，它会打印出数组中的所有内容吗？我的意思是：元名称=“引文作者机构”内容=“纽约哥伦比亚大学”>, , @anderssinho更新您的问题以显示您正在运行的确切代码和确切的输出。仔细阅读Luis的代码以了解数组的内容。数组既不包含（整个）元素，也不包含它的HTML表示形式。但是如果我这样做，它不会打印出数组中的所有内容吗？我的意思是：meta name=“引文作者机构”内容=“纽约哥伦比亚大学”>, , @anderssinho更新您的问题以显示您正在运行的确切代码和确切输出。仔细阅读Luis的代码以了解数组的内容。数组既不包含（整个）元素，也不包含它的HTML表示形式。
var authors = [];
var elements = document.getElementsByName('citation_author_institution');
for (var i=0; i<elements.length; i++){
    authors.push(elements[i].content);
}
console.log(authors)