Php Wikimedia URL上使用了哪些特定的清理功能?

Php Wikimedia URL上使用了哪些特定的清理功能?,php,wikipedia,sanitization,Php,Wikipedia,Sanitization,我正在编写一个简单的查询来查找commons.wikimedia.org上的URL,但我似乎无法绕开应该使用哪些特定的清理规则来获取那里使用的确切名称文件 例如:象牙海岸的国旗在法语中被列为“Derapeau_de_la_科特迪瓦”%27科特迪瓦”,所以我知道撇号正在被消毒,而普通的却没有。我见过许多其他保留了特殊字符的文件名 假设所有特殊字符都被保留,所有标点符号和/或非字母都被清除了,这样安全吗?维基百科使用所有以%nnnn格式转义的url(根据所有url RFC),您的浏览器为您做最后的工

我正在编写一个简单的查询来查找commons.wikimedia.org上的URL,但我似乎无法绕开应该使用哪些特定的清理规则来获取那里使用的确切名称文件

例如:象牙海岸的国旗在法语中被列为“Derapeau_de_la_科特迪瓦”%27科特迪瓦”,所以我知道撇号正在被消毒,而普通的
却没有。我见过许多其他保留了特殊字符的文件名


假设所有特殊字符都被保留,所有标点符号和/或非字母都被清除了,这样安全吗?

维基百科使用所有以
%nnnn
格式转义的url(根据所有url RFC),您的浏览器为您做最后的工作,只是为了让url更友好


所以即使我的chrome显示
http://en.wikipedia.org/wiki/Flag_of_C科特迪瓦
url,原来是
http://en.wikipedia.org/wiki/Flag_of_C%C3%B4te_d'科特迪瓦

浏览器可以做到这一点,而不是wikepedia。浏览器仅以ascii安全符号发送URL,但以更友好的方式显示它们,特别是针对用户。他们这方面没有进行任何清理?我不确定您指的是哪种清理,但对于这一部分,他们只发送以%nn()编码的数据你的浏览器会把它解码回来我想这叫做编码而不是消毒。依我拙见