通过Python抓取Twitter嵌入的URL

通过Python抓取Twitter嵌入的URL,python,html,twitter,web-scraping,tweepy,Python,Html,Twitter,Web Scraping,Tweepy,我目前试图提取嵌入Twitter视频中的“行动号召”按钮中的URL。例如: 使用Chrome Inspect时,我可以相对容易地发现我想要的东西: 现在,我试图在Python中删除突出显示的链接。 我找不到任何方法从Twitter API获取它,因此我切换到BeautifulSoup。但在搜索任何链接时,它都不会显示给我: In[23]: url = "https://amp.twimg.com/v/a693e53f-a6a3-4ff1-b06e-7c5402db0e06" In[24]:

我目前试图提取嵌入Twitter视频中的“行动号召”按钮中的URL。例如:

使用Chrome Inspect时,我可以相对容易地发现我想要的东西:

现在,我试图在Python中删除突出显示的链接。 我找不到任何方法从Twitter API获取它,因此我切换到BeautifulSoup。但在搜索任何链接时,它都不会显示给我:

In[23]: url = "https://amp.twimg.com/v/a693e53f-a6a3-4ff1-b06e-7c5402db0e06"
In[24]: resp = requests.get(url).content 
In[25]: soup = BeautifulSoup(resp, 'lxml') 
In[26]: soup.find_all('a')
Out[26]: 
[<a href="https://twitter.com/unibet" target="_blank">@unibet</a>,
<a class="download-btn" id="app-download"><img id="whiteLogo"      
src="https://amp.twimg.com/amplify-web-player/prod/styles/img/twitter_logo_white.png"/></a>]
[23]中的
:url=”https://amp.twimg.com/v/a693e53f-a6a3-4ff1-b06e-7c5402db0e06"
在[24]中:resp=requests.get(url.content)
[25]中:汤=BeautifulSoup(分别为'lxml')
在[26]中:soup.find_all('a'))
出[26]:
[,
]

你知道我能做些什么来提取嵌入的URL吗?非常感谢您的帮助

数据是通过ajax请求动态创建的,您可以使用
name=“twitter:amplify:vmap”
从原始页面元标记中提取xml的url,然后请求类似xml的数据:

?xml version="1.0" encoding="utf-8"?>
<vmap:VMAP xmlns:esi="http://www.edge-delivery.org/esi/1.0" xmlns:tw="http://twitter.com/schema/videoVMapV2.xsd" xmlns:vmap="http://www.iab.net/vmap-1.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="vast3.xsd">
<vmap:Extensions>
<vmap:Extension>
<tw:amplify>
<tw:content contentId="745543706946658305" ownerId="143820595" stitched="false">
<tw:cta_watch_now url="https://www.unibet.co.uk/stan/campaign.do?cmpId=1042109&amp;affiliateId=52&amp;affId=5211000020&amp;adID=LINC_E2_T9&amp;unibetTarget=/luckisnocoincidence"/>
<MediaFiles>
<MediaFile>
              http://amp.twimg.com/prod/multibr_v_1/video/2016/06/22/09/745543706946658305-libx264-main-2028k.mp4?5LiXscTGA2BYvqh2cKP8uTkru1N%2Fj8exRYhB9PbbFpM%3D
            </MediaFile>
</MediaFiles>
<tw:videoVariants>
<tw:videoVariant content_type="application/x-mpegURL" url="https://video.twimg.com/amplify_video/745543706946658305/pl/st7wblyZRtiYtYP9.m3u8?expiration=1466688540&amp;hmac=cb919c7cbe840ad38f8892f430695245991b19022d3359a68f724754171a5874"/>
<tw:videoVariant bit_rate="320000" content_type="video/mp4" url="https://video.twimg.com/amplify_video/745543706946658305/vid/320x180/JST5dEfLU99QyWle.mp4?expiration=1466688540&amp;hmac=0dc8d5a53cba3228ad6b01d766bf0ad0b8c8504b9cba5db93dd62e379cdad9dc"/>
<tw:videoVariant content_type="application/dash+xml" url="https://video.twimg.com/amplify_video/745543706946658305/pl/st7wblyZRtiYtYP9.mpd?expiration=1466688540&amp;hmac=74a2b83bdc0020957b7d8603a66ae514425e25c05b546108d7667fe7345afbfb"/>
<tw:videoVariant bit_rate="2176000" content_type="video/mp4" url="https://video.twimg.com/amplify_video/745543706946658305/vid/1280x720/U7ucLbF_u4E8CYBQ.mp4?expiration=1466688540&amp;hmac=5207d3904cb34b9fc21a584e2f47247e6e0f9a97cacb0ae5721b5f1fd9167916"/>
<tw:videoVariant bit_rate="832000" content_type="video/mp4" url="https://video.twimg.com/amplify_video/745543706946658305/vid/640x360/Zopai0yZTfHhyq6W.mp4?expiration=1466688540&amp;hmac=fd736bdd53b487f2a881b583cd2e39610365d82970a9a0ed6c695c5eb44476b2"/>
</tw:videoVariants>
</tw:content>
</tw:amplify>
</vmap:Extension>
</vmap:Extensions>
<!-- We only support linear start (preroll) for now -->
<vmap:AdBreak breakId="preroll3" breakType="linear" timeOffset="start">
<vmap:AdSource allowMultipleAds="false" followRedirects="false" id="0">
<vmap:VASTData>
<VAST>
</VAST>
</vmap:VASTData>
</vmap:AdSource>
</vmap:AdBreak>
</vmap:VMAP>
这就给了我们一个链接:

https://www.unibet.co.uk/stan/campaign.do?cmpId=1042109&affiliateId=52&affId=5211000020&adID=LINC_E2_T9&unibetTarget=/luckisnocoincidence

这真的很有帮助!这是一种动态调用嵌入式媒体内容的“标准”方式吗?例如,它在Facebook上是否也能起到类似的作用?不用担心,不幸的是,几乎每个网站都是不同的,因此您需要监控请求,以了解到底发生了什么,chrome工具或firebug是抓取的基本工具,如果打开chrom tools并查看网络选项卡下的xhr选项卡,您可以看到get请求。
https://www.unibet.co.uk/stan/campaign.do?cmpId=1042109&affiliateId=52&affId=5211000020&adID=LINC_E2_T9&unibetTarget=/luckisnocoincidence