Javascript 如何卷曲没有'；不要在页面加载时发生_Javascript_Curl

Javascript 如何卷曲没有'；不要在页面加载时发生

javascript curl

Javascript 如何卷曲没有'；不要在页面加载时发生,javascript,curl,Javascript,Curl,我正试图在IMDb上获得一部电影的标题：但是，如果我这样做： $ curl http://www.imdb.com/title/tt0049902/ 所包含的标题是“一个逃犯”，而不是“一个逃犯”，这正是我想要的。以下是curl响应中的HTML： <h1 class="header"> <span class="itemprop" itemprop="name">Un condamné à mort s'est échappé ou Le vent souffle

我正试图在IMDb上获得一部电影的标题：

但是，如果我这样做：

$ curl http://www.imdb.com/title/tt0049902/

所包含的标题是“一个逃犯”，而不是“一个逃犯”，这正是我想要的。以下是curl响应中的HTML：

<h1 class="header"> <span class="itemprop" itemprop="name">Un condamné à mort s'est échappé ou Le vent souffle où il veut</span>
        <span class="nobr">(<a href="/year/1956/?ref_=tt_ov_inf"
>1956</a>)</span>
</h1>

oùil veut通风蛋奶酥
()

看起来英文标题必须在初始页面加载后插入。那么我如何获取此标题？

$curl--header“Accept Language:en”http://www.imdb.com/title/tt0049902/ >b.txt
$ curl --header "Accept-Language: en"  http://www.imdb.com/title/tt0049902/ > b.txt
$ grep 'meta.*title' b.txt
<meta property="og:url" content="http://www.imdb.com/title/tt0049902/" />
<meta property='og:title' content="A Man Escaped (1956)" />
<meta name="title" content="A Man Escaped (1956) - IMDb" />

$grep'meta.*title'b.txt

因此，

--header“Accept Language:en”

似乎在这种情况下很有帮助（而在不指定该header的情况下，您得到的是电影的原始语言-法语）。

看起来没有办法严格地从您从curl获得的初始HTML转储中获得它。也许最好使用他们的，而不是刮他们的网页。如果它不在源代码中，那么它可能被注入了脚本。您需要一个无头浏览器来以HTML方式生成，正如我刚才回答的，看起来您所需要的只是指定适当的

Accept Language

头——因此我相信javascript没有参与（但我不确定，所以我留了那个标记），尽管我100%确定python没有参与（所以我确实删除了那个零散的标记）。支持@HuuNguyen的建议，不管怎么说，更喜欢官方API而不是刮削：-）