Jsp API或任何其他方式访问IMDB TOP 250列表?

Jsp API或任何其他方式访问IMDB TOP 250列表?,jsp,web-scraping,imdb,Jsp,Web Scraping,Imdb,我做了大量的研究,发现我找不到API。是否有任何可用的API来获取前250名列表 还是另一种访问列表的方式 我尝试在JSP后端访问HTML页面并进行解析。但这里的问题是,我只得到一个框架,列表作为AJAX加载 有没有办法刮网呢 如果您有任何使用想法,我们将不胜感激。最简单的方法就是从网站下载数据 您需要的文件是ratings.list.gz。第一部分列出了前250部电影。是的,现在有一个叫做omdbapi的API http://www.omdbapi.com/ 可从那里获得: 获取它所在的u

我做了大量的研究,发现我找不到API。是否有任何可用的API来获取前250名列表

还是另一种访问列表的方式

我尝试在JSP后端访问HTML页面并进行解析。但这里的问题是,我只得到一个框架,列表作为AJAX加载

有没有办法刮网呢


如果您有任何使用想法,我们将不胜感激。

最简单的方法就是从网站下载数据


您需要的文件是ratings.list.gz。第一部分列出了前250部电影。

是的,现在有一个叫做omdbapi的API

http://www.omdbapi.com/
可从那里获得:

获取它所在的url:(您需要一个免费令牌)


(不是我的网站)

我也遇到了这个问题,我用一些刮擦解决了它。以下是Python代码:

import requests
import re

top250_url = "http://akas.imdb.com/chart/top"


def get_top250():
    r = requests.get(top250_url)
    html = r.text.split("\n")
    result = []
    for line in html:
        line = line.rstrip("\n")
        m = re.search(r'data-titleid="tt(\d+?)">', line)
        if m:
            _id = m.group(1)
            result.append(_id)
    #
    return result
它返回前250部电影的IMDb ID。然后,使用该软件包,您可以询问有关电影的所有信息,因为您有电影ID。


这一个很好,我从现在开始使用

为什么不向脚本调用的端点发出请求(发出ajax调用)?我上面评论中的链接可能重复包含该解决方案。但是没有解决方案能够获得前250名列表。。我在“前250名名单”上的具体情况我相信他们每周都会更新。不管怎样,前250部电影每天都不会有太大的变化。我已经编写了一个脚本,将所有
.list.gz
文件转换为JSON,这将使使用JSON变得更容易:Mansour:这些文件已经非常庞大了,我猜JSON甚至更大,因为有用于格式化的标记。大多数人所做的是将它们加载到关系数据库中进行查询。我已经为SQL Server完成了这项工作,其他人已经为python/mysql编写了一个解析器。。!但是它的功能非常有限。@JayModi我知道它仍然是我所知道的唯一一种类型
import requests
import re

top250_url = "http://akas.imdb.com/chart/top"


def get_top250():
    r = requests.get(top250_url)
    html = r.text.split("\n")
    result = []
    for line in html:
        line = line.rstrip("\n")
        m = re.search(r'data-titleid="tt(\d+?)">', line)
        if m:
            _id = m.group(1)
            result.append(_id)
    #
    return result