Nlp 搜索引擎用俄语文档语料库_Nlp_Information Retrieval_Documents_Corpus

Nlp 搜索引擎用俄语文档语料库

nlp

Nlp 搜索引擎用俄语文档语料库,nlp,information-retrieval,documents,corpus,Nlp,Information Retrieval,Documents,Corpus,我正在做一个跨语言信息检索，用英语进行查询，用俄语搜索文档。为了评估这个系统，最好有一套俄文文档供搜索。有没有人知道我可以搜索的文档集或网站，我可以从中轻松地收集一堆俄语文档（除了维基百科）文档可以是关于任何东西的，尽管如果它们是在人类知识的某个特定领域（CS、建筑、工程、艺术、文学分析，等等）会很好。我不知道这是否是你想要的，但是。它们是dBase4格式，大约有57.3 GB的数据。不知道这是否是您要查找的，但是。它们是dBase4格式的，大约有57.3 GB的数据。我更喜欢unicode纯

我正在做一个跨语言信息检索，用英语进行查询，用俄语搜索文档。为了评估这个系统，最好有一套俄文文档供搜索。有没有人知道我可以搜索的文档集或网站，我可以从中轻松地收集一堆俄语文档（除了维基百科）

文档可以是关于任何东西的，尽管如果它们是在人类知识的某个特定领域（CS、建筑、工程、艺术、文学分析，等等）会很好。

我不知道这是否是你想要的，但是。它们是dBase4格式，大约有57.3 GB的数据。

不知道这是否是您要查找的，但是。它们是dBase4格式的，大约有57.3 GB的数据。

我更喜欢unicode纯文本格式，需要200-10000个文档。如果您使用*nix系统，您可以使用以下方法：将dBase文件转换为其他格式。在Windows中，您可以使用ADODB:。此外，我认为Excel可以读取dBase文件，尽管默认情况下无法识别.db4扩展名。我希望使用unicode纯文本格式，并且需要200-10000个文档。如果使用*nix系统，可以使用以下方法：将dBase文件转换为另一种格式。在Windows中，您可以使用ADODB:。此外，我认为Excel可以读取dBase文件，尽管默认情况下不能识别.db4扩展名。