pythonwebscraping:如何获取内部站点的HTML

pythonwebscraping:如何获取内部站点的HTML,python,web-scraping,Python,Web Scraping,我的组织有一些类似于内部LinkedIn的东西,在这里,员工列出描述、技能、联盟、职位等 我正试图写一个网页抓取程序,可以拉所有这些文字下来搜索关键字,拉关键信息和图像。我很乐意进行打包和分析,但我很难满足组织的访问要求,以便为我的1000名员工中的每一位提取HTML代码 是否可以编写python脚本在前台运行(即我打开的chrome/firefox窗口,该窗口已经登录,可以访问每个人的页面),然后循环浏览每个人的站点链接?还有其他建议吗?是的,您可以使用Selenium lib Seleniu

我的组织有一些类似于内部LinkedIn的东西,在这里,员工列出描述、技能、联盟、职位等

我正试图写一个网页抓取程序,可以拉所有这些文字下来搜索关键字,拉关键信息和图像。我很乐意进行打包和分析,但我很难满足组织的访问要求,以便为我的1000名员工中的每一位提取HTML代码


是否可以编写python脚本在前台运行(即我打开的chrome/firefox窗口,该窗口已经登录,可以访问每个人的页面),然后循环浏览每个人的站点链接?还有其他建议吗?

是的,您可以使用Selenium lib

Selenium是一个lib,可以在浏览器层执行测试和其他好的操作

文件:

政府文件:

我希望能帮助你


祝你好运

这些数据不是存储在你所在组织拥有的数据库中吗?为什么要重新发明轮子?祝你好运