Javascript 无法筛选刮取站点

Javascript 无法筛选刮取站点,javascript,http,redirect,cookies,screen-scraping,Javascript,Http,Redirect,Cookies,Screen Scraping,我正在尝试筛选下一页的内容(列出所有医学专业)和本页包含的链接内容(提供特定专业培训的所有大学)。以下是包含所有特色的主页: 页面上的第一个链接是专门的青少年医学(儿科),URL是 当我尝试直接导航到上面的URL时,服务器会将我重定向回主页。然而,点击青少年医学的链接会将我带到我想要访问的页面 我不明白为什么点击链接会让我进入正确的页面,但导航到同一个URL却不能。以下是我的想法: 1) Javascript问题-我禁用了JS,但仍然会被重定向到主页。此外,单击表中的链接仍然会将我带到正确的页

我正在尝试筛选下一页的内容(列出所有医学专业)和本页包含的链接内容(提供特定专业培训的所有大学)。以下是包含所有特色的主页:

页面上的第一个链接是专门的青少年医学(儿科),URL是

当我尝试直接导航到上面的URL时,服务器会将我重定向回主页。然而,点击青少年医学的链接会将我带到我想要访问的页面

我不明白为什么点击链接会让我进入正确的页面,但导航到同一个URL却不能。以下是我的想法:

1) Javascript问题-我禁用了JS,但仍然会被重定向到主页。此外,单击表中的链接仍然会将我带到正确的页面

2) Cookies-我禁用了所有Cookies,但在尝试使用直接URL访问青少年医学页面时仍然遇到相同的问题。有趣的是,在禁用所有cookie的情况下,使用表链接进行导航仍然有效

3) HTTPS-不确定如何检查这是否是导致问题的原因


我花了相当多的时间在Chrome上查看开发者的控制台,还没有找到我无法使用直接URL访问专业页面的原因。任何帮助或指导都将不胜感激

关键是确保设置了适当的标题。此服务器显然需要有效的用户代理和正确的引用集。一旦我设置了下面显示的标题,它就工作了

标题={ “接受”:“text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8”, “接受编码”:“gzip,deflate,sdch”, ‘接受语言’:‘en-US,en;q=0.8’, “连接”:“保持活动状态”, “用户代理”:“Mozilla/5.0(Windows NT 6.1;WOW64)AppleWebKit/537.36(KHTML,如Gecko)Chrome/39.0.2171.95 Safari/537.36”, “referer”:” }