python的字符串匹配/搜索
我正试图清理维基百科的数据。我有一个包含维度的数据字段,如下所示python的字符串匹配/搜索,python,regex,wikipedia,pywikibot,Python,Regex,Wikipedia,Pywikibot,我正试图清理维基百科的数据。我有一个包含维度的数据字段,如下所示 ["112 x 76 yards (102.4m x 69.4m)", "104.5 x 70.3 m", "107m x 72m", "109×73 yds / 100×67 m", "{{convert|105|x|68|m|yd|1}}", "100 metres by 70 metres"] 提取维度很容易,但考虑到条目有多少变化,提取单位相当困难。 最好的方法是什么 我已经开始使用 "(\d+\.?\d*)" 这
["112 x 76 yards (102.4m x 69.4m)", "104.5 x 70.3 m", "107m x 72m",
"109×73 yds / 100×67 m", "{{convert|105|x|68|m|yd|1}}", "100 metres by 70 metres"]
提取维度很容易,但考虑到条目有多少变化,提取单位相当困难。
最好的方法是什么
我已经开始使用
"(\d+\.?\d*)"
这将提取所有尺寸,然后我将只保存前2个数字匹配,保存一个单位的第一个匹配('m','meter','meters','y','yard','yds','yd','ft',…),然后我可以将所有值转换为米
我只是不确定如何保存第一个单位匹配。您可以提供一个要匹配的单位字符串数组,并与之匹配,然后用维度按索引散列。可能有用或相关。此外,如果解析不明确,您可以使用隐含的转换率来排除某些选项。