Jquery HTML文本抓取
我是网络小说的狂热读者。我在手机上阅读主要内容。让我恼火的是,不是每个网站都有一个暗/亮切换器,没有无衬线/衬线字体切换器,和/或更改字体大小的选项。有些网站甚至没有“下一章/上一章”按钮。所以我的计划是建立我自己的小网站,在那里我可以一个接一个地阅读,拥有我想要的所有选择。现在我知道如何更改主题、切换字体及其大小。然而,事实证明,要获得这些章节本身是相当困难的 首先,我想使用jquery,但尽管我可以更改宽度,但由于未知的原因,高度没有更改。 例如:$(“#siteloader”).html(“”);css宽度/高度为100% 我也不知道如何去除无用的杂乱,只留下链接和文本。所以我决定尝试一种不同的方法 我知道有一个叫做textise的网站,只留下文本。我想创造类似的东西。我发现了关于网页抓取的事情。然而,我无论如何也找不到使用jquery从网站上抓取文本的方法。我已经找到了一个PHP图像刮板作为示例,但我并没有经常使用PHP 所以我的问题是,有人知道一个例子/教程,其中有人做了类似于我在jquery中想要做的事情吗Jquery HTML文本抓取,jquery,html,css,screen-scraping,Jquery,Html,Css,Screen Scraping,我是网络小说的狂热读者。我在手机上阅读主要内容。让我恼火的是,不是每个网站都有一个暗/亮切换器,没有无衬线/衬线字体切换器,和/或更改字体大小的选项。有些网站甚至没有“下一章/上一章”按钮。所以我的计划是建立我自己的小网站,在那里我可以一个接一个地阅读,拥有我想要的所有选择。现在我知道如何更改主题、切换字体及其大小。然而,事实证明,要获得这些章节本身是相当困难的 首先,我想使用jquery,但尽管我可以更改宽度,但由于未知的原因,高度没有更改。 例如:$(“#siteloader”).html(
无论如何,如果有人能帮助我,我会非常感激,这是我第一次在这里问问题,所以如果我做错了什么,请告诉我,这样我就知道我可以在以后的问题中改变什么。我做过类似的事情,可能对你有用。通过Httprequest,您可以从外部资源获取HTML。我用它来提取某个图像
$.ajaxPrefilter( function (options) {
if (options.crossDomain && jQuery.support.cors) {
var http = (window.location.protocol === 'http:' ? 'http:' : 'https:');
options.url = http + '//cors-anywhere.herokuapp.com/' + options.url;
}
});
var url = 'https://www.smashingmagazine.com/2017/01/redesigning-the-paris-metro-map/';
$.get(
url,
function (data) {
var html = $(data);
var article = html.find('article');
console.log(article);
$('#content').html(article);
});
在本例中,我搜索一个article标记。问题是,您可能想要从中提取“网络小说”的页面可能不包含文章标记
我在提取图像时遇到了同样的问题。最好的结果是meta标记中声明的og:image
。但是,否则我需要从文章中提取第一幅图像,或者提取标题中使用的图像。我发现很多资源都使用article标签或id
content
的div。我只是重复了所有这些可能性;如果没有og:image,则搜索文章标签,如果没有文章标签,则查看是否有id为content
的div,依此类推。如果其他一切都失败了,那么就没有图像了。你可能想做类似的事情
我鼓励你自己做这个。练习。提高你的技能。但我想说的是,你也可以使用诸如Pocket或Instapaper之类的read-later应用程序。你不能只使用PHP来抓取文本。您可以使用类似的方法,然后使用类似库的方法对其进行解析,以仅提取所需的部分。欢迎使用Stack Overflow!请仔细阅读。请求外部资源是离题的。Firefox有一个名为“”的选项,它可能会帮助您。