Nlp 从脱机转储中提取属于某个类别的wikipedia文章

Nlp 从脱机转储中提取属于某个类别的wikipedia文章,nlp,mediawiki,wikipedia,wikimedia-dumps,Nlp,Mediawiki,Wikipedia,Wikimedia Dumps,我有不同语言的维基百科文章转储。我想用属于某个类别(特别是)的文章来过滤它们 我可以得到很多类似的问题,例如: 但是,我想在离线的情况下完成这一切。这就是使用转储,也适用于不同的语言 我探索的其他东西是分类表和分类链接表。 从转储中获取页面和类别链接表,然后运行 SELECT page_namespace, page_title FROM page JOIN categorylinks ON page_id = cl_from WHERE cl_to

我有不同语言的维基百科文章转储。我想用属于某个类别(特别是)的文章来过滤它们

我可以得到很多类似的问题,例如:

  • 但是,我想在离线的情况下完成这一切。这就是使用转储,也适用于不同的语言

    我探索的其他东西是分类表和分类链接表。

    从转储中获取
    页面
    类别链接
    表,然后运行

    SELECT
        page_namespace,
        page_title
    FROM
        page
        JOIN categorylinks ON page_id = cl_from
    WHERE
        cl_to = 'WikiProject_Biography'
    ;
    

    获取页面列表。

    是的,categorylinks表就是您需要的。那么问题出在哪里呢?好的,你能描述一下是怎么回事吗?