Javascript 如何使用WKWebView提取网页的主要文本?

Javascript 如何使用WKWebView提取网页的主要文本?,javascript,ios,swift,web-scraping,wkwebview,Javascript,Ios,Swift,Web Scraping,Wkwebview,我想从给定的网站中提取主要文本。到目前为止,我通过使用WKWebView和evaluateJavaScript实现了这一点,但不知何故,它不适用于类似于或尽管有易于提取的HTML段落标记的网站。我做错了什么?我应该如何修复它 这是我目前使用的代码: func-webView(webView:WKWebView,didfish-navigation:WKNavigation!) { webView.stopLoading() webView.evaluateJavaScript(“document

我想从给定的网站中提取主要文本。到目前为止,我通过使用WKWebView和evaluateJavaScript实现了这一点,但不知何故,它不适用于类似于或尽管有易于提取的HTML段落标记的网站。我做错了什么?我应该如何修复它

这是我目前使用的代码:

func-webView(webView:WKWebView,didfish-navigation:WKNavigation!)
{
webView.stopLoading()
webView.evaluateJavaScript(“document.body.innerText”),completionHandler:
{结果,错误在
如果让userAgent=结果为?字符串
{
打印(用户代理)
}
})
}
例如,《纽约时报》的文章输出仅给出:

跳到内容跳到站点索引
形象
信誉
形象
形象
形象
通过创建免费帐户或登录访问更多时间。
免费访问更多。
站点索引
站点信息导航

这是一个非常棘手的问题。网站的布局千差万别。我想知道是否有这样的库,或者至少有一个参考实现。Safari有一个页面阅读器,它必须实现类似的功能。IDK,如果它是在Safari或WebKit中实现的,但如果是后者,您可以查看它们的实现。我忘了提到我以前使用过SwiftSoup,但因为(正如您所说)有很多不同的方法来建立一个网站,如果我试图建立一个网站的网页没有段落标签,图书馆并不总是能够正确地刮取。这是一个非常困难的问题。网站的布局千差万别。我想知道是否有这样的库,或者至少有一个参考实现。Safari有一个页面阅读器,它必须实现类似的功能。IDK,如果它是在Safari或WebKit中实现的,但如果是后者,您可以查看它们的实现。我忘了提到我以前使用过SwiftSoup,但因为(正如您所说)有很多种不同的方法可以建立一个网站,如果我试图建立一个网站的网页没有段落标签,图书馆就不会总是正确地刮取。