将特定文本块从网站提取到Android应用程序
我正在开发一个Android应用程序,它必须从网站提取数据,提取的数据将显示在应用程序的文本视图中 在尝试了我在谷歌和Stackoverflow中找到的所有可能的方法之后,我仍然无法处理数据,现在任何人都可以共享,如果他们已经这样做了 细节 网站: 在这个网站上,我想提取最新的新闻块和即将发生的事件的数据 代码如下:我使用JSOUP来提取将特定文本块从网站提取到Android应用程序,android,web,web-scraping,Android,Web,Web Scraping,我正在开发一个Android应用程序,它必须从网站提取数据,提取的数据将显示在应用程序的文本视图中 在尝试了我在谷歌和Stackoverflow中找到的所有可能的方法之后,我仍然无法处理数据,现在任何人都可以共享,如果他们已经这样做了 细节 网站: 在这个网站上,我想提取最新的新闻块和即将发生的事件的数据 代码如下:我使用JSOUP来提取 package out.in; import java.io.IOException; import org.jsoup.Jsoup; import org.
package out.in;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.select.Elements;
import org.w3c.dom.Document;
import android.app.Activity;
import android.os.Bundle;
import android.sax.Element;
import android.widget.TextView;
import android.widget.Toast;
public class HtmlExtracterActivity extends Activity {
/** Called when the activity is first created. */
// url
static final String URL = "https://www.amrita.edu/campus/bengaluru";
@Override
public void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.main);
try {
((TextView)findViewById(R.id.tv)).setText(getdata());
}
catch (Exception ex) {
((TextView)findViewById(R.id.tv)).setText("Error");
}
}
protected String getdata() throws Exception {
String result = "";
// get html document structure
Document document = (Document) Jsoup.connect(URL).get();
// selector query
*********Need help
// check results
*********Need help
return result;
}
}
我已在清单文件中授予Internet权限
及
Xml文件如下所示
<?xml version="1.0" encoding="utf-8"?>
<LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"
android:orientation="vertical"
android:layout_width="fill_parent"
android:layout_height="fill_parent"
>
<TextView android:text=" "
android:id="@+id/tv" android:layout_width="wrap_content"
android:layout_height="wrap_content"></TextView>
</LinearLayout>
我真诚地感谢您事先提供必要的帮助您没有提到您所面临的确切问题。您是否尝试查看此时返回的内容:
Document document = (Document) Jsoup.connect(URL).get();
我假设这可能是因为上述代码中缺少用户代理。请尝试此操作,如果您仍然面临错误,请告知我们:
响应=Jsoup.connect(位置)
.ignoreContentType(true)
.userAgent(“Mozilla/5.0(Windows NT 6.1;Win64;x64;rv:25.0)Gecko/20100101 Firefox/25.0”).推荐人(“”
.超时(12000) .followRedirects(true) .execute() Document doc=response.parse();用户代理 使用最新的用户代理。这是完整的清单 超时 也不要忘了添加timout,因为有时需要超过 下载页面的正常超时 推荐人 将referer设置为google 跟随重定向 按照重定向进入页面 execute()而不是get() 使用execute()获取响应对象。这可以帮助你检查 用于内容类型和状态代码,以防出错 资料来源:
请附上来自异常的完整stacktrace。您好,您是否解决了此问题???你能分享一下答案吗?嗨,我没法解决这个问题。非常感谢任何线索