Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/jquery/69.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Jquery HTML文本抓取_Jquery_Html_Css_Screen Scraping - Fatal编程技术网

Jquery HTML文本抓取

Jquery HTML文本抓取,jquery,html,css,screen-scraping,Jquery,Html,Css,Screen Scraping,我是网络小说的狂热读者。我在手机上阅读主要内容。让我恼火的是,不是每个网站都有一个暗/亮切换器,没有无衬线/衬线字体切换器,和/或更改字体大小的选项。有些网站甚至没有“下一章/上一章”按钮。所以我的计划是建立我自己的小网站,在那里我可以一个接一个地阅读,拥有我想要的所有选择。现在我知道如何更改主题、切换字体及其大小。然而,事实证明,要获得这些章节本身是相当困难的 首先,我想使用jquery,但尽管我可以更改宽度,但由于未知的原因,高度没有更改。 例如:$(“#siteloader”).html(

我是网络小说的狂热读者。我在手机上阅读主要内容。让我恼火的是,不是每个网站都有一个暗/亮切换器,没有无衬线/衬线字体切换器,和/或更改字体大小的选项。有些网站甚至没有“下一章/上一章”按钮。所以我的计划是建立我自己的小网站,在那里我可以一个接一个地阅读,拥有我想要的所有选择。现在我知道如何更改主题、切换字体及其大小。然而,事实证明,要获得这些章节本身是相当困难的

首先,我想使用jquery,但尽管我可以更改宽度,但由于未知的原因,高度没有更改。 例如:$(“#siteloader”).html(“”);css宽度/高度为100%

我也不知道如何去除无用的杂乱,只留下链接和文本。所以我决定尝试一种不同的方法

我知道有一个叫做textise的网站,只留下文本。我想创造类似的东西。我发现了关于网页抓取的事情。然而,我无论如何也找不到使用jquery从网站上抓取文本的方法。我已经找到了一个PHP图像刮板作为示例,但我并没有经常使用PHP

所以我的问题是,有人知道一个例子/教程,其中有人做了类似于我在jquery中想要做的事情吗


无论如何,如果有人能帮助我,我会非常感激,这是我第一次在这里问问题,所以如果我做错了什么,请告诉我,这样我就知道我可以在以后的问题中改变什么。

我做过类似的事情,可能对你有用。通过Httprequest,您可以从外部资源获取HTML。我用它来提取某个图像

$.ajaxPrefilter( function (options) {
  if (options.crossDomain && jQuery.support.cors) {
    var http = (window.location.protocol === 'http:' ? 'http:' : 'https:');
    options.url = http + '//cors-anywhere.herokuapp.com/' + options.url;
  }
});

var url = 'https://www.smashingmagazine.com/2017/01/redesigning-the-paris-metro-map/';

$.get(
    url,
    function (data) {
        var html = $(data);
      var article = html.find('article');
      console.log(article);
      $('#content').html(article);
});
在本例中,我搜索一个article标记。问题是,您可能想要从中提取“网络小说”的页面可能不包含文章标记

我在提取图像时遇到了同样的问题。最好的结果是meta标记中声明的
og:image
。但是,否则我需要从文章中提取第一幅图像,或者提取标题中使用的图像。
我发现很多资源都使用article标签或id
content
的div。我只是重复了所有这些可能性;如果没有og:image,则搜索文章标签,如果没有文章标签,则查看是否有id为
content
的div,依此类推。如果其他一切都失败了,那么就没有图像了。
你可能想做类似的事情


我鼓励你自己做这个。练习。提高你的技能。但我想说的是,你也可以使用诸如Pocket或Instapaper之类的read-later应用程序。

你不能只使用PHP来抓取文本。您可以使用类似的方法,然后使用类似库的方法对其进行解析,以仅提取所需的部分。欢迎使用Stack Overflow!请仔细阅读。请求外部资源是离题的。Firefox有一个名为“”的选项,它可能会帮助您。