Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/security/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web scraping 获取HTML表的一部分_Web Scraping_Jsoup - Fatal编程技术网

Web scraping 获取HTML表的一部分

Web scraping 获取HTML表的一部分,web-scraping,jsoup,Web Scraping,Jsoup,我想从网站上获取表的内容 这是网站的源代码: <tr><td><table width='100%'><tr><td valign='top' width='1px' class='GridViewRow1'><img src='/images/pin.gif'></td><td class='GridViewRow1'><a href='Announcements.etc'><b

我想从网站上获取表的内容

这是网站的源代码:

 <tr><td><table width='100%'><tr><td valign='top' width='1px' class='GridViewRow1'><img src='/images/pin.gif'></td><td class='GridViewRow1'><a href='Announcements.etc'><b><i>Title num 1</i></b></a><div class='SmallText'>Username</div><div class='SmallText' style='color:#808080;'>date</div></td></tr></table></td></tr>
<tr><td><table width='100%'><tr><td valign='top' width='1px' class='GridViewRow1'><img src='/images/pin.gif'></td><td class='GridViewRow1'><a href='Announcements.etc2'><b><i>Title num 2</i></b></a><div class='SmallText'>username</div><div class='SmallText' style='color:#808080;'>date</div></td></tr></table></td></tr>
我得到的结果是:

Title num 1 username date as a string.
我只想得到标题


有人能告诉我如何获取标题吗?因为标题没有唯一的标记。

标题标记为-仅选择该标记

... td = doc.select("td.GridViewRow1 > b >i");

这就是我问题的解决方案

您可以将其简化为desc=doc.select(“td.GridViewRow1 a[href]”。first().text();
... td = doc.select("td.GridViewRow1 > b >i");
Document doc = Jsoup.connect(url).get();
Elements td = doc.select("td.GridViewRow1");
desc = td.select("a[href]").first().text();