Excel 从网站上查找公司的位置

Excel 从网站上查找公司的位置,excel,python-2.7,beautifulsoup,urllib2,Excel,Python 2.7,Beautifulsoup,Urllib2,首先,感谢几天前我刚刚开始学习编码的帮助,所以我非常感谢你的帮助 因此,基本上我有一个公司URL列表,并希望找到它们所在的位置。我一直想做的是使用urllib2和BeautifulSoup从URL获取所有文本,然后搜索这些文本以查找加利福尼亚、马萨诸塞、纽约等地,并将找到的任何一个打印到一个文档中,我可以将其放入excel。到目前为止,我已经编写了下面的代码,它给了我一组文本,但我不知道如何搜索它,如何使用多个URL,或者如何将这些信息打印成Excel可读的格式 谢谢大家! import url

首先,感谢几天前我刚刚开始学习编码的帮助,所以我非常感谢你的帮助

因此,基本上我有一个公司URL列表,并希望找到它们所在的位置。我一直想做的是使用urllib2和BeautifulSoup从URL获取所有文本,然后搜索这些文本以查找加利福尼亚、马萨诸塞、纽约等地,并将找到的任何一个打印到一个文档中,我可以将其放入excel。到目前为止,我已经编写了下面的代码,它给了我一组文本,但我不知道如何搜索它,如何使用多个URL,或者如何将这些信息打印成Excel可读的格式

谢谢大家!

import urllib2
import re
from bs4 import BeautifulSoup


links = urllib2.urlopen('http://www.coolcomposites.com/')
html = links.read()
soup = BeautifulSoup(html, "html.parser")
locations = ["Boston", "MA"]
file_text = soup.get_text()
print (file_text)

您需要遍历
位置
列表,并检查
文件\u文本
中是否存在每个条目

for loc in locations:
  if loc in file_text:
    print ("Found location")
  else:
    print ("Location not found")
小心

1。资本化

坚持使用
位置的一种表示形式
。所有内容都是小写、大写或先大写再小写等。重点是,不要混淆,因为上面的实现不区分大小写,所以
MA!=妈妈mA

因此,假设您为
位置选择小写,则将
文件\u文本
也转换为小写

2。中点检测


位置中
,您包含了MA。这也将在任何包含位置信息的文本中检测到。想办法克服这个问题。

我的回答有用吗?如果是,请投票并标记为答案,这样您的问题就可以结束了。。快乐编码,干杯,伙计:)