Java 从网页中提取通用文章

Java 从网页中提取通用文章,java,extraction,html-content-extraction,Java,Extraction,Html Content Extraction,我将开始我的文章摘录工作 我将要做的任务是提取发布在不同网页上的酒店评论(如1、2) 我需要用Java来完成这项任务,仅仅在过去的几个月里我就在用Java工作 下面是我关于这些的问题 是否有可能以一种通用的方式从不同的网页中单独提取评论 请告诉我是否有任何API支持Java中的任务 另外,让我知道你的想法/来源,这将更有助于我完成上述任务 更新 如果网络上有任何类型的相关示例,请发布相同的示例,因为这可能非常有用。您可能需要一个类似Java或的屏幕抓取工具。也很受欢迎 然而,在从tripadvi

我将开始我的文章摘录工作

我将要做的任务是提取发布在不同网页上的酒店评论(如1、2)

我需要用Java来完成这项任务,仅仅在过去的几个月里我就在用Java工作

下面是我关于这些的问题

  • 是否有可能以一种通用的方式从不同的网页中单独提取评论

  • 请告诉我是否有任何API支持Java中的任务

  • 另外,让我知道你的想法/来源,这将更有助于我完成上述任务

  • 更新


    如果网络上有任何类型的相关示例,请发布相同的示例,因为这可能非常有用。

    您可能需要一个类似Java或的屏幕抓取工具。也很受欢迎


    然而,在从tripadvisor等第三方网站提取数据时,您还有更大的法律考虑。他们的政策允许吗?

    谢谢你的实用建议。。关于法律权利,我将与我的管理层讨论!