Linux 如何使用c将html标记和图像从网页剥离到文件
我将如何使用c编写一个程序,在Linux中剥离通过终端输入的网页,删除所有HTML标记和图像,并将剩余内容放入文件中 我只是对如何从终端获取网页感到困惑Linux 如何使用c将html标记和图像从网页剥离到文件,linux,terminal,stdin,libcurl,Linux,Terminal,Stdin,Libcurl,我将如何使用c编写一个程序,在Linux中剥离通过终端输入的网页,删除所有HTML标记和图像,并将剩余内容放入文件中 我只是对如何从终端获取网页感到困惑 谢谢您的帮助。您可以使用wget从终端下载de页面。使用类似“wget-O filename.html”的内容。它将把页面下载到文件“filename.html”中。 您可以通过各种程序在终端中获取网页,如curl、wget、aria2c等。使用这些程序下载网页使用编写C程序来剥离标签 如果你想用C下载网页,你可以用。获取示例代码如何使用下载h
谢谢您的帮助。您可以使用wget从终端下载de页面。使用类似“wget-O filename.html”的内容。它将把页面下载到文件“filename.html”中。
- 您可以通过各种程序在终端中获取网页,如
、curl
、wget
等。使用这些程序下载网页使用编写C程序来剥离标签aria2c
- 如果你想用C下载网页,你可以用。获取示例代码如何使用下载
使用以下命令http://stackoverflow.com
这将生成一个包含示例代码的文件curl --libcurl downloadstackoverflow.c http://stackoverflow.com
downloadstackoverflow.c
- 这是一个从html中去除标记的简单程序。它不支持引号
”中的标记。但您应该明白这一点“
int main() { int in_tag = 0; char c; while ((c = getchar()) != EOF) { if (c == '<' || c == '>') { in_tag = (c == '<') ? 1 : 0; } else { if (!in_tag) { putchar(c); } } } }
intmain(){ int in_tag=0; 字符c; 而((c=getchar())!=EOF){ 如果(c=''){
in_tag=(c=='我不明白:终端与网页有什么关系?如果你想从你的c程序中获取网页的内容,使用一个网络库,比如libcurl。