仅使用python删除Linkedin将返回'';[]和#x27;
我正试图从任何用户档案中获取当前和教育内容(此信息可公开获取)。但是,运行此代码后,我无法获得所需的信息,只能获得空括号[] 这正是我目前正在使用的链接,从这里我希望能够获得以下信息:“当前圣十字学院”和“爱荷华州教育大学” 我的代码非常简单:仅使用python删除Linkedin将返回'';[]和#x27;,python,request,linkedin,lxml,data-extraction,Python,Request,Linkedin,Lxml,Data Extraction,我正试图从任何用户档案中获取当前和教育内容(此信息可公开获取)。但是,运行此代码后,我无法获得所需的信息,只能获得空括号[] 这正是我目前正在使用的链接,从这里我希望能够获得以下信息:“当前圣十字学院”和“爱荷华州教育大学” 我的代码非常简单: from lxml import html import requests response = requests.get('https://www.linkedin.com/in/bryan-engelhardt-a099204b') data =
from lxml import html
import requests
response = requests.get('https://www.linkedin.com/in/bryan-engelhardt-a099204b')
data = html.fromstring(response.text)
print(data.xpath('//title/text()')) #looks for title and prints it
print(data.xpath('//*[@id="topcard"]/div[1]/div/div/table/tbody/tr[1]/td/ol/li/span/a/text()')) # using a direct xpath
print(data.xpath('//*[@id="topcard"]/div[1]/div/div/table/tbody/tr[2]/td/ol/li/a/text()'))
输出如下所示:
C:\Python34\python.exe "C:/Users/Holy Cross - Summer/Desktop/python/scrape/scrape1.py"
[]
[]
[]
Process finished with exit code 0
我不知道为什么它会将此作为回应返回,因为我已经在其他网站上尝试过,并获得了成功的结果。可能是LinkedIn试图阻止我获取这些信息,如果是,我该如何避开它。我想你应该阅读LinkedIn的服务条款 linkedin声明你需要白名单来清理网站
# Notice: If you would like to crawl LinkedIn,
# please email whitelistcrawl@linkedin.com to apply
# for white listing.
我会从申请白名单开始
你可以尝试通过使用用户代理之类的东西来让你的机器人看起来像人类,但我不推荐这样做 也许从打印回复开始?打印回复给我。我假设linkedin拒绝我访问他们的信息,因此返回[]。我该怎么处理呢?你看过回复了吗?谢谢!我会试试看。此外,不使用帐户登录,我并不同意他们的用户协议(禁止刮取),理论上,这些协议应该允许我自由刮取对公众开放的信息,但我猜不是……确定,但他们也可以自由不让你进入。