Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/javascript/451.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript &引用;错误:eNotFind";从Node.js请求包发出大量请求时_Javascript_Node.js_Request_Httprequest - Fatal编程技术网

Javascript &引用;错误:eNotFind";从Node.js请求包发出大量请求时

Javascript &引用;错误:eNotFind";从Node.js请求包发出大量请求时,javascript,node.js,request,httprequest,Javascript,Node.js,Request,Httprequest,我正在Node.js中运行一个脚本,它使用包来帮助我发出HTTP请求。该脚本发出100到1000个请求,以便下载PDF并将其放在本地计算机上的某个文件夹中。当我只发出100个请求时,程序工作正常,所有PDF都显示在我的文件夹中,但当我发出更多请求时,程序开始抛出此错误(ENOTFOUND),抛出此错误的文件在文件夹中为空。当我手动加载抛出错误的链接时,它们工作正常(因此我知道这不是主机的问题),我可以像那样下载文件,但我想自动执行 下面是给出错误的函数位。我已经开始尝试推送所有给数组带来错误的链

我正在Node.js中运行一个脚本,它使用包来帮助我发出HTTP请求。该脚本发出100到1000个请求,以便下载PDF并将其放在本地计算机上的某个文件夹中。当我只发出100个请求时,程序工作正常,所有PDF都显示在我的文件夹中,但当我发出更多请求时,程序开始抛出此错误(ENOTFOUND),抛出此错误的文件在文件夹中为空。当我手动加载抛出错误的链接时,它们工作正常(因此我知道这不是主机的问题),我可以像那样下载文件,但我想自动执行

下面是给出错误的函数位。我已经开始尝试推送所有给数组带来错误的链接,但是还没有解决这个问题

  var year = process.argv[3] % 2000;
  var url  = yearURL[year];

  request(url, function(error, response, html){
        if(!error){
              var $ = cheerio.load(html, {xmlMode: true});

              $('link', 'item').each(function(){
                    var link = $(this).text();
                    PDFscrape(link);
              });
        }
  });

  function PDFscrape(link){
        request(link, function(error, response, html){
              if(!error){
                    var $ = cheerio.load(html);

                    var num = $('#ctl00_ContentPlaceHolder1_lblFile2', '#ctl00_ContentPlaceHolder1_pageDetails').text();
                    console.log('Document ' + num + ' has been loaded.');
                    var i = 1;
                    $('a', '#ctl00_ContentPlaceHolder1_lblAttachments2').each(function(){
                          var pdf = 'https://phila.legistar.com/' + $(this).attr('href');
                          AddPDF(pdf, num, i);
                          i++;
                    });
              }
        })
  }

  function AddPDF(link, file, i){
        var name = file;
        var fileName;
        if (year !== 100 && year !== -2){
              fileName = fs.createWriteStream(__dirname + '/pdfs/20' + year + '/' + file + '_' + i + '.pdf');
        } else if (year === 100){
              fileName = fs.createWriteStream(__dirname + '/pdfs/recent100/' + file + '_' + i + '.pdf');            
        } else if (year === -2){
              fileName = fs.createWriteStream(__dirname + '/pdfs/recent10/' + file + '_' + i + '.pdf');                        
        }

        request({
              uri: link,
              headers: {
                    'Host': 'phila.legistar.com',
                    'User-Agent': 'request'
              }
        }, function(err) {
              if (err){
                    var errLink = {url: link, file: name, num: i}
                    var count = errors.push(errLink);
                    console.log('--------- Error: ' + count + ' ---------');
              }
        }).pipe(fileName);
  }
引发的错误是:

  stream.js:94
        throw er; // Unhandled stream error in pipe.
        ^
  Error: getaddrinfo ENOTFOUND
        at errnoException (dns.js:37:11)
        at Object.onanswer [as oncomplete] (dns.js:124:16)

注意:我正在处理这个错误,但是给出这个错误的文档在不应该显示的情况下是以空白的形式传输的。我只是不明白为什么文件会给出错误

少了几个分号,
的使用有点不雅观=而不是
==
,对
文件
的错误双重含义的使用,但没有任何东西可以解释您看到的内容。我猜
在某种程度上是不好的。在这里发布我的代码版本和一些评论

(我在这里发布,不在评论中b/c不能在评论中发布长代码):


最后,您仍然没有提供实际的跟踪。

幸好您发布了错误。。。似乎您遇到的是DNS错误。主机名查找有时会失败

我建议您打印所有的URL,而不实际下载它们。如果它们看起来都正常,那么这是一个暂时的DNS问题。如果您有本地/关闭DNS服务器,请检查其日志。否则,尝试将DNS更改为健壮的,如8.8.8.8(谷歌的DNS),只是为了测试


如果每次对不同的URL都失败了,那么这是本地机器中的问题。一种解决方法是尝试/捕获此错误,然后重新尝试有问题的URL。

您应该发布更多代码,并可能显示实际抛出的错误/跟踪(因此我们知道有问题的行是什么)。胡乱猜测:整个事情都在一个循环中,
file
指的是最后一次循环迭代?(只是猜测)当然。我将首先描述整个流程:我从一个RSS提要开始,其中包含10到>1000个链接。我正在抓取每个链接的提要,转到该URL,然后在每个页面上添加1或2个PDF。指向PDF的链接(在我从RSS提要抓取的页面上)开始自动下载,它们不是在浏览器中加载PDF的链接。因此,我正在将下载文件传送到本地计算机上的一个文件夹中。我编辑了上面的文章,以显示每个PDF链接调用的完整AddPDF函数。让我知道我是否应该发布更多的代码。谢谢你的评论。我已经更新了上面的代码。与我认为是相关的代码。是的,是由程序的一个输入选择的,并且一个数组被索引以获得当年RSS提要的URL。刚刚意识到我对URL变量还有一些“双重含义”,但这不应该是问题的根源。虽然我正在更改它以确保。您是否也可以发布您看到的实际错误消息(跟踪)?(旁注:只在函数顶部声明一次
var filename
,并在各种“then”子句中分配它,而不重复
var
关键字;还有,
earquame
,一个打字错误?)进一步查看后,什么是
num
?是否保证可以从中创建文件名?在下载每个PDF之前,将
num
打印到控制台,以确保其形成合法的文件名。由于大多数链接工作正常(通常约有1/4失败,尽管可能会有所不同),我假设这与我正在抓取的服务器有关,而不是我的本地计算机。你能再次解释一下如何更改为健壮的DNS吗?如果我知道问题不在于URL不好,而在于我试图连接的服务器,那么这仍然是我应该尝试的吗?最后,我尝试将所有错误的URL推送到一个数组中,然后遍历该数组以重新尝试所有URL,但与异步JavaScript混淆了。试一试好吗?非常感谢您的帮助。这可能是您这边的临时DNS问题,也可能是服务器返回到不存在的主机的重定向。首先将您的DNS服务器更改为8.8.8.8,让我们看看如何进行。(另外,你可以试着告诉
请求
不要遵循重定向。这可能会导致一些PDF丢失,但没有发生错误,然后是来自服务器的错误重定向)。实际上,我已经将我的DNS服务器列为8.8.8.8,所以不是那样,告诉
请求
不要遵循重定向也没有帮助。
function AddPDF(link, filename, i) {
    var file;
    if (year !== 100 && year !== -2) {
        // probably want "!==" rather than "=="
        file = fs.createWriteStream(__dirname + '/' + file + '_' + i + '.pdf');
    } else {
        // WHAT HAPPENS HERE?
        // what is "file", that is later piped to?
        // this may be your issue.
        // Where is this "year" coming from? Can you show relevant code?
    }

    request({
        uri: link,
        headers: {
            'Host': 'phila.legistar.com',
            'User-Agent': 'request'
        }
    }, function(err) {
        var errLink, count;
        if (err) {
            errLink = {url: link, file: filename, num: i};
            count = errors.push(errLink);
            console.log('--------- Error: ' + count + ' ---------');
        }
    }).pipe(file);
}