Javascript 如何卷曲没有';不要在页面加载时发生

Javascript 如何卷曲没有';不要在页面加载时发生,javascript,curl,Javascript,Curl,我正试图在IMDb上获得一部电影的标题: 但是,如果我这样做: $ curl http://www.imdb.com/title/tt0049902/ 所包含的标题是“一个逃犯”,而不是“一个逃犯”,这正是我想要的。以下是curl响应中的HTML: <h1 class="header"> <span class="itemprop" itemprop="name">Un condamné à mort s'est échappé ou Le vent souffle

我正试图在IMDb上获得一部电影的标题:

但是,如果我这样做:

$ curl http://www.imdb.com/title/tt0049902/
所包含的标题是“一个逃犯”,而不是“一个逃犯”,这正是我想要的。以下是curl响应中的HTML:

<h1 class="header"> <span class="itemprop" itemprop="name">Un condamné à mort s'est échappé ou Le vent souffle où il veut</span>
        <span class="nobr">(<a href="/year/1956/?ref_=tt_ov_inf"
>1956</a>)</span>
</h1>
oùil veut通风蛋奶酥
()
看起来英文标题必须在初始页面加载后插入。那么我如何获取此标题?

$curl--header“Accept Language:en”http://www.imdb.com/title/tt0049902/ >b.txt
$ curl --header "Accept-Language: en"  http://www.imdb.com/title/tt0049902/ > b.txt
$ grep 'meta.*title' b.txt
<meta property="og:url" content="http://www.imdb.com/title/tt0049902/" />
<meta property='og:title' content="A Man Escaped (1956)" />
<meta name="title" content="A Man Escaped (1956) - IMDb" />
$grep'meta.*title'b.txt

因此,
--header“Accept Language:en”
似乎在这种情况下很有帮助(而在不指定该header的情况下,您得到的是电影的原始语言-法语)。

看起来没有办法严格地从您从curl获得的初始HTML转储中获得它。也许最好使用他们的,而不是刮他们的网页。如果它不在源代码中,那么它可能被注入了脚本。您需要一个无头浏览器来以HTML方式生成,正如我刚才回答的,看起来您所需要的只是指定适当的
Accept Language
头——因此我相信javascript没有参与(但我不确定,所以我留了那个标记),尽管我100%确定python没有参与(所以我确实删除了那个零散的标记)。支持@HuuNguyen的建议,不管怎么说,更喜欢官方API而不是刮削:-)