Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/cplusplus/127.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C++ 使用C/C++;_C++_C_Webpage_Text Extraction - Fatal编程技术网

C++ 使用C/C++;

C++ 使用C/C++;,c++,c,webpage,text-extraction,C++,C,Webpage,Text Extraction,如何使用C/C++从给定url的网页特定区域(阿拉伯语而非英语)提取文本 例如:给定的url,我想提取文章的正文(在下图中突出显示),并扔掉网页的其他部分,如标题、右侧和左侧的菜单等。我只需要将正文解析为字符串 要仅从维基百科页面获取文章文本,请添加到您的url 然后使用例如curl来获取它。如果您不知道如何使用,请在web上搜索curl/c++教程。您正在寻找类似的东西(只是为了给您一个想法): #包括 #包括 内部主(空){ 卷曲*卷曲; 编码结果; curl=curl_easy_init(

如何使用C/C++从给定url的网页特定区域(阿拉伯语而非英语)提取文本

例如:给定的url,我想提取文章的正文(在下图中突出显示),并扔掉网页的其他部分,如标题、右侧和左侧的菜单等。我只需要将正文解析为字符串


要仅从维基百科页面获取文章文本,请添加到您的url

然后使用例如curl来获取它。如果您不知道如何使用,请在web上搜索curl/c++教程。您正在寻找类似的东西(只是为了给您一个想法):

#包括
#包括
内部主(空){
卷曲*卷曲;
编码结果;
curl=curl_easy_init();
curl\u easy\u setopt(curl,CURLOPT\u URL,“https://ar.wikipedia.org/wiki/%D8%B3%D9%8A_%D8%A5%D9%86_%D8%A5%D9%86_%D8%A7%D9%84%D8%B9%D8%B1%D8%A8%D9%8A%D8%A9?action=render");
结果=curl\u easy\u perform(curl);
旋度\轻松\清洁(旋度);
返回0;
}

您可以使用!扩展“UseCurl”注释和链接:当然,没有任何库或工具可以“开箱即用”。cURL允许轻松下载您的页面。清除HTML中不需要的任何内容都是需要编写的。现代C语言和现代C++语言是非常不同的,而一个人的惯用解决方案可能不适用于另一种语言。除非您要求以某种方式进行比较/对比,否则只标记您实际使用/编译的语言。@crashmstr谢谢,但斜杠“/”表示“或”。在C++程序中,哪个变量/对象保存了网页的内容?我不知道很多C++,但是我认为你可以提供这样的回调函数:<代码> CURLIASEASYSETOPT(CURL,CURLoptTWrreEngult,MyWreWrand函数);代码>
#include <stdio.h>
#include <curl/curl.h>

int main(void) {

    CURL* curl;
    CURLcode result;

    curl = curl_easy_init();
    curl_easy_setopt(curl, CURLOPT_URL, "https://ar.wikipedia.org/wiki/%D8%B3%D9%8A_%D8%A5%D9%86_%D8%A5%D9%86_%D8%A7%D9%84%D8%B9%D8%B1%D8%A8%D9%8A%D8%A9?action=render");

    result = curl_easy_perform(curl);

    curl_easy_cleanup(curl);

    return 0;
}