Nlp 搜索引擎用俄语文档语料库
我正在做一个跨语言信息检索,用英语进行查询,用俄语搜索文档。为了评估这个系统,最好有一套俄文文档供搜索。有没有人知道我可以搜索的文档集或网站,我可以从中轻松地收集一堆俄语文档(除了维基百科)Nlp 搜索引擎用俄语文档语料库,nlp,information-retrieval,documents,corpus,Nlp,Information Retrieval,Documents,Corpus,我正在做一个跨语言信息检索,用英语进行查询,用俄语搜索文档。为了评估这个系统,最好有一套俄文文档供搜索。有没有人知道我可以搜索的文档集或网站,我可以从中轻松地收集一堆俄语文档(除了维基百科) 文档可以是关于任何东西的,尽管如果它们是在人类知识的某个特定领域(CS、建筑、工程、艺术、文学分析,等等)会很好。我不知道这是否是你想要的,但是。它们是dBase4格式,大约有57.3 GB的数据。不知道这是否是您要查找的,但是。它们是dBase4格式的,大约有57.3 GB的数据。我更喜欢unicode纯
文档可以是关于任何东西的,尽管如果它们是在人类知识的某个特定领域(CS、建筑、工程、艺术、文学分析,等等)会很好。我不知道这是否是你想要的,但是。它们是dBase4格式,大约有57.3 GB的数据。不知道这是否是您要查找的,但是。它们是dBase4格式的,大约有57.3 GB的数据。我更喜欢unicode纯文本格式,需要200-10000个文档。如果您使用*nix系统,您可以使用以下方法:将dBase文件转换为其他格式。在Windows中,您可以使用ADODB:。此外,我认为Excel可以读取dBase文件,尽管默认情况下无法识别.db4扩展名。我希望使用unicode纯文本格式,并且需要200-10000个文档。如果使用*nix系统,可以使用以下方法:将dBase文件转换为另一种格式。在Windows中,您可以使用ADODB:。此外,我认为Excel可以读取dBase文件,尽管默认情况下不能识别.db4扩展名。