Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/kubernetes/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 搜索引擎用俄语文档语料库_Nlp_Information Retrieval_Documents_Corpus - Fatal编程技术网

Nlp 搜索引擎用俄语文档语料库

Nlp 搜索引擎用俄语文档语料库,nlp,information-retrieval,documents,corpus,Nlp,Information Retrieval,Documents,Corpus,我正在做一个跨语言信息检索,用英语进行查询,用俄语搜索文档。为了评估这个系统,最好有一套俄文文档供搜索。有没有人知道我可以搜索的文档集或网站,我可以从中轻松地收集一堆俄语文档(除了维基百科) 文档可以是关于任何东西的,尽管如果它们是在人类知识的某个特定领域(CS、建筑、工程、艺术、文学分析,等等)会很好。我不知道这是否是你想要的,但是。它们是dBase4格式,大约有57.3 GB的数据。不知道这是否是您要查找的,但是。它们是dBase4格式的,大约有57.3 GB的数据。我更喜欢unicode纯

我正在做一个跨语言信息检索,用英语进行查询,用俄语搜索文档。为了评估这个系统,最好有一套俄文文档供搜索。有没有人知道我可以搜索的文档集或网站,我可以从中轻松地收集一堆俄语文档(除了维基百科)


文档可以是关于任何东西的,尽管如果它们是在人类知识的某个特定领域(CS、建筑、工程、艺术、文学分析,等等)会很好。

我不知道这是否是你想要的,但是。它们是dBase4格式,大约有57.3 GB的数据。

不知道这是否是您要查找的,但是。它们是dBase4格式的,大约有57.3 GB的数据。

我更喜欢unicode纯文本格式,需要200-10000个文档。如果您使用*nix系统,您可以使用以下方法:将dBase文件转换为其他格式。在Windows中,您可以使用ADODB:。此外,我认为Excel可以读取dBase文件,尽管默认情况下无法识别.db4扩展名。我希望使用unicode纯文本格式,并且需要200-10000个文档。如果使用*nix系统,可以使用以下方法:将dBase文件转换为另一种格式。在Windows中,您可以使用ADODB:。此外,我认为Excel可以读取dBase文件,尽管默认情况下不能识别.db4扩展名。