Java 沃森内容分析:如何使网络爬虫插件获取数据,发送帖子请求?

Java 沃森内容分析:如何使网络爬虫插件获取数据,发送帖子请求?,java,web-crawler,http-post,Java,Web Crawler,Http Post,我有WCA 3.5.0服务器,我需要使用网络爬虫从站点获取文档。 问题在于,我必须向站点发送POST请求以获取一些数据(最初,我的站点只包含一个表单,其中包含一些字段和提交按钮以将请求发送到服务器)。因此,我的POST请求主体应该是这样的: {"DateFrom":"2000-01-01T00:00:00","DateTo":"2030-01-01T23:59:59","Bundles":[{"Name":"the test name that i passed","Type":-1}],"Co

我有WCA 3.5.0服务器,我需要使用网络爬虫从站点获取文档。 问题在于,我必须向站点发送POST请求以获取一些数据(最初,我的站点只包含一个表单,其中包含一些字段和提交按钮以将请求发送到服务器)。因此,我的POST请求主体应该是这样的:

{"DateFrom":"2000-01-01T00:00:00","DateTo":"2030-01-01T23:59:59","Bundles":[{"Name":"the test name that i passed","Type":-1}],"Company":[],"Transaction":[],"Text":""}
我在考虑为网络爬虫制作一个预取插件。 但从我发现的文档来看,这几乎是不可能的:

“参数数组中传递给用户的第一个元素([0]) 插件是PrefetchPluginArg1类型的对象,它是一个接口 它扩展了接口PrefetchPluginArg。这是唯一的 参数和传递给预取的唯一参数类型 插件。”

PrefetchPluginArg1类只有getHTTPHeader()、setHTTPHeader()、getURL()、setURL()、doFetch()、setFetch(), 其中:

  • getHTTPHeader方法返回一个字符串,其中包含 爬虫程序发送的HTTP请求头的内容,以便 爬虫可以下载文档
  • getURL方法返回文档的URL(字符串形式),该文档 爬虫下载。您可以使用此URL来决定文档是否 需要请求标头中的其他信息,例如 饼干
看起来没有办法改变请求主体

那么,是否真的可以控制请求后的正文,而不仅仅是标题,如果是这样,您能分享一些关于解决此任务的方法的信息吗