Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/309.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 使用JSOUP从网页中检索有用信息_Java_Html_Jsoup - Fatal编程技术网

Java 使用JSOUP从网页中检索有用信息

Java 使用JSOUP从网页中检索有用信息,java,html,jsoup,Java,Html,Jsoup,如何从万维网的任何网页中检索JAVA页面的“页脚”部分的“联系我们”链接 例如,查找页脚元素,或id为“footer”或具有页脚类的元素 我曾尝试使用JSOUP从网页中检索所有链接,然后在其中运行regex*contact.。但我不能100%确定从这种方法获取的链接是网站的联系我们页面 Q2 是否有其他可靠的方法,或者我是否可以使用页脚链接和我已经完成的方法来判断某个页面是否确实是“联系我们”页面 但是我不能百分之百的确定获取的链接 简短回答 你永远不会确定 长话短说 对于给定的随机HTML页

如何从万维网的任何网页中检索JAVA页面的“页脚”部分的“联系我们”链接

例如,查找页脚元素,或id为“footer”或具有页脚类的元素

我曾尝试使用JSOUP从网页中检索所有链接,然后在其中运行regex
*contact.
。但我不能100%确定从这种方法获取的链接是网站的联系我们页面

Q2

是否有其他可靠的方法,或者我是否可以使用页脚链接和我已经完成的方法来判断某个页面是否确实是“联系我们”页面

但是我不能百分之百的确定获取的链接

简短回答 你永远不会确定


长话短说 对于给定的随机HTML页面,您希望找到“联系我们”链接。这种工作对一个人来说是微不足道的。这对计算机来说是一个巨大的挑战

我可以在您的案例中看到一些选项:

选项1:众包

  • 获取您想要的所有网站URL“联系我们”信息
  • 将他们发送到人群服务平台,让真人帮你查找信息(Rapidworkers.com、Crowdsource.com、Clickworker.com、Amazon Mechanical Turk、microworkers.com)
检查平台是否提供API

+人工完成的工作
+动态适应未知模式
-花钱
-我们讨厌重复的任务
选项2:IA(模式搜索)

  • 培训IA以提取信息
  • 然后通过它访问你的网站
例如,看一看

+自动任务
+可以长时间执行重复性任务
-可能需要时间来构建强健的解决方案
-假阳性或完全漏检的风险
选项3:使用Jsoup

  • 仔细研究你目标网站的模式
  • 告诉Jsoup找到您检测到的模式
此选项是一项永无止境的任务。您必须始终向Jsoup提供新模式。我建议你们有一个监控系统,告诉你们什么时候网站逃逸了任何已知的模式

+自动任务
+可以长时间执行重复性任务
-花时间研究、发现和添加新模式
-假阳性或完全漏检的风险
选项4:上述三种选项的组合

您可以在目标网站上使用这三个选项

+减少误报或完全漏检的机会
+更自信的最终结果
-花时间研究、发现和添加新模式
-花钱

试试这篇文章,它是关于从网站检索数据的-