Java 通过Android/jsoup以URL格式抓取数据
我试图从HTML表中获取URL,但是每次这样做时,我都会获取HREF title数据,而不是URL-有人知道如何解决/避免此问题吗Java 通过Android/jsoup以URL格式抓取数据,java,android,url,web-scraping,jsoup,Java,Android,Url,Web Scraping,Jsoup,我试图从HTML表中获取URL,但是每次这样做时,我都会获取HREF title数据,而不是URL-有人知道如何解决/避免此问题吗 <table class="datagrid"> <tr> <th>Number</th> <th>Name</th> <th>Sex</th> <th&
<table class="datagrid">
<tr>
<th>Number</th>
<th>Name</th>
<th>Sex</th>
<th>Location</th>
</tr>
<tr>
<td><a href="redirector.cfm?ID=93bd5121-7a3b-4a56-a576-f432e542047a&page=1&&lname=&fname=" title="501207593">501207593 </a></td>
<td>AARON, JUSTIN COLBY </td>
<td>M </td>
<td>Facility 1</td>
</tr>
<tr>
<td><a href="redirector.cfm?ID=c5629a92-7113-487c-ba9b-1e62203ab08d&page=1&&lname=&fname=" title="501302750">501302750 </a></td>
<td>AARONSON, CARY HOWARD </td>
<td>M </td>
<td>Facility 2</td>
</tr>
<tr>
<td><a href="redirector.cfm?ID=66d01768-5686-44eb-ac6a-16eb783f52d0&page=1&&lname=&fname=" title="501306284">501306284 </a></td>
<td>ABBOTT, LAUREA </td>
<td>F </td>
<td>Facility 3</td>
</tr>
数
名称
性
位置
亚伦,贾斯汀·科尔比
M
设施1
卡里·霍华德·阿伦森
M
设施2
雅培,劳雷亚
F
设施3
资料来源:
public class MainActivity extends Activity {
TextView tv;
String url = "http://google.com";
String tr;
Document doc;
@Override
public void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_main);
tv = (TextView) findViewById(R.id.TextView01);
new MyTask().execute(url);
}
private class MyTask extends AsyncTask<String, Void, String> {
ProgressDialog prog;
String title = "";
@Override
protected void onPreExecute() {
prog = new ProgressDialog(MainActivity.this);
prog.setMessage("Loading....");
prog.show();
}
@Override
protected String doInBackground(String... params) {
try {
doc = Jsoup.connect(params[0]).get();
Element tableElement = doc.select(".datagrid").first();
Elements tableRows = tableElement.select("tr");
for (Element row : tableRows) {
Elements cells = row.select("td");
if (cells.size() > 0) {
title = cells.get(0).text() + "; "
+ cells.get(1).text() + "; "
+ cells.get(2).text() + "; "
+ cells.get(3).text();
}
}
} catch (IOException e) {
e.printStackTrace();
}
return title;
}
@Override
protected void onPostExecute(String title) {
super.onPostExecute(title);
prog.dismiss();
tv.setText(title);
}
}
}
公共类MainActivity扩展活动{
文本视图电视;
字符串url=”http://google.com";
字符串tr;
文件文件;
@凌驾
创建时的公共void(Bundle savedInstanceState){
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_main);
tv=(TextView)findViewById(R.id.TextView01);
新建MyTask().execute(url);
}
私有类MyTask扩展了AsyncTask{
进程对话程序;
字符串标题=”;
@凌驾
受保护的void onPreExecute(){
prog=新建进度对话框(MainActivity.this);
程序设置消息(“加载…”);
prog.show();
}
@凌驾
受保护的字符串doInBackground(字符串…参数){
试一试{
doc=Jsoup.connect(参数[0]).get();
Element tableElement=doc.select(“.datagrid”).first();
元素tableRows=tableElement.select(“tr”);
用于(元素行:表行){
元素单元格=行。选择(“td”);
如果(cells.size()>0){
title=cells.get(0).text()+“;”
+cells.get(1.text()+“;”
+cells.get(2.text()+“;”
+cells.get(3.text();
}
}
}捕获(IOE异常){
e、 printStackTrace();
}
返回标题;
}
@凌驾
受保护的void onPostExecute(字符串标题){
super.onPostExecute(标题);
程序解除();
tv.setText(标题);
}
}
}
目前的结果:
501306284;雅培,劳雷亚;F设施3
预期结果:
重定向器.cfm?ID=66d01768-5686-44eb-ac6a-16eb783f52d0&page=1&&lname=&fname=“title=”501306284;雅培,劳雷亚;F设施3
或者更好的是
预期结果
单击此处获取更多信息(您似乎只获得了以下信息: 我想这就是你想要做的
cells.get(0).child(0).attr("href")
查看此文档。您似乎得到的只是: 我想这就是你想要做的
cells.get(0).child(0).attr("href")
检查此文档。我尝试了以下操作,但似乎不起作用…title=cells.get(0.attr(“href”)+“;”+cells.get(0.text()+”;“+cells.get(1.text()+”;“+cells.get(2.text()+”;”+cells.get(3).text();噢,因为您在迭代
TD
。然后您必须请求TD
的第一个子项。更新的答案应该可以。我尝试了以下方法,但似乎不起作用…title=cells.get(0).attr(“href”)+“;”+单元格.get(0.text()+”;“+单元格.get(1.text()+”;“+单元格.get(2.text()+”;”+单元格.get(3.text)();哦,因为你在迭代TD
。然后你必须询问TD
的第一个孩子。更新后的答案应该有效。