如何以浏览器身份登录MediaWiki站点?

如何以浏览器身份登录MediaWiki站点?,mediawiki,Mediawiki,我试图通过访问编辑页面来获取旧MediaWiki站点的内容。要做到这一点,我需要登录。这意味着我将能够抓取文本区域字段中没有任何html的内容和标记 该网站似乎没有启用api,而且它似乎是一个非常旧的版本,至少从2010年起就没有升级过 当我尝试在登录后登录到时,会发送一个wikidb\u mw\u会话cookie /w/index.php?title=Special:Userlogin&action=submitlogin&type=login 使用wpName=usrnam

我试图通过访问编辑页面来获取旧MediaWiki站点的内容。要做到这一点,我需要登录。这意味着我将能够抓取文本区域字段中没有任何html的内容和标记

该网站似乎没有启用api,而且它似乎是一个非常旧的版本,至少从2010年起就没有升级过

当我尝试在登录后登录到时,会发送一个
wikidb\u mw\u会话
cookie

/w/index.php?title=Special:Userlogin&action=submitlogin&type=login
使用
wpName=usrname&wpPassword=userpass&wploginattent=Log+in

但是当我提供这个cookie并尝试使用POST再次登录时 返回的内容表示我提供了错误的用户名

如果我改用浏览器登录,我会收到根据实时标题发回的
wikidb\u mw\u用户ID
wikidb\u mw\u用户名
,以及
wikidb\u mw\u令牌
cookies


只是想知道,除了会话cookie之外,还有什么其他功能可以让我登录。

使用编辑页面导出内容不是一个好主意。您可以使用
Special:Export
获取XML

例如,要从Wikipedia导出关于StackOverflow的文章,请替换其URL


这个网站有多老?你确定它不支持API吗?或
特殊:导出
?或者
action=raw
?它运行的是PHP4.5之类的东西。不响应API调用。。。给出404个错误。不确定如何获得mediawiki版本。您看过《特殊:版本》吗?是的,我知道“特殊:导出”,但我希望避免删除该方法带来的所有html表。@GrahamChiu您在谈论什么表?它提供的wiki标记与您将在编辑页面的文本区域中看到的完全相同。好吧,也许我应该仔细查看。我看到的区别是,在编辑页面中,您可以看到html,但在导出视图中,我可以看到html实体。如果是这样的话,也许我能应付。我没想到会看到任何html。@GrahamChiu哦,对了,那是因为它是XML,里面不能有html特殊符号。问题是,当您获得一个编辑页面时,它还将包含HTML实体。您可以看到它们被渲染为jus,因为您的浏览器渲染了它们。同样,导出XML的
标记中的内容与编辑页面上的
中的内容完全相同。