Python 验证公司名称

Python 验证公司名称,python,machine-learning,geolocation,web-crawler,data-extraction,Python,Machine Learning,Geolocation,Web Crawler,Data Extraction,我有很多公司的名字和地址。我想验证它们。有些公司名称不准确(拼错、缩写等) 为了获得正确的公司名称,我构建了一个谷歌搜索爬虫,当给出一个查询时,它会提取第一个搜索结果。所以基本上,当我在谷歌搜索一个公司名称时,我(大多数时候)会得到公司的准确标题和URL 有没有其他方法可以从不准确的公司名称中获得正确的名称?有时,第一个搜索结果并不能引导您正确的方向,调用GoogleAPI的请求数量也有限。如何解决这个问题?如果我收集的数据能够预测正确的公司名称或信心得分前五名,我可以使用机器学习吗?准确的公司

我有很多公司的名字和地址。我想验证它们。有些公司名称不准确(拼错、缩写等)

为了获得正确的公司名称,我构建了一个谷歌搜索爬虫,当给出一个查询时,它会提取第一个搜索结果。所以基本上,当我在谷歌搜索一个公司名称时,我(大多数时候)会得到公司的准确标题和URL


有没有其他方法可以从不准确的公司名称中获得正确的名称?有时,第一个搜索结果并不能引导您正确的方向,调用GoogleAPI的请求数量也有限。如何解决这个问题?如果我收集的数据能够预测正确的公司名称或信心得分前五名,我可以使用机器学习吗?

准确的公司名称的概念是非常相关的,唯一的官方名称是在公司所在国注册的法定名称,但通常不是公开使用的名称(谁叫苹果公司?)

如果你关注的是上市公司,那么你可以以股票市场上使用的名称作为参考

例如,对于美国股票,美国证券交易委员会(SEC)提供了一份报告。 一些数据提供商也将提供这种服务,包括雅虎金融(yahoo finance)或Quandl等非美国股票

如果你所关注的公司没有上市,你可能需要浏览一些网站,比如注册办公室或其他商业列表


一旦你建立了你的参考名称,你可以使用一些字符串匹配,比如将你的名称映射到你选择的参考名称。

由于谷歌有每个公司的完整数据,如果你在搜索查询中同时输入公司名称和地址,这将非常精确。一些地址无效。我还需要验证地址。Ri现在我在谷歌搜索中查询公司名称和国家。