Python:从不在原始HTML中的网站提取文本

Python:从不在原始HTML中的网站提取文本,python,web-scraping,Python,Web Scraping,我有一种情况,我从网页上抓取数据,需要将数据(一组字符串)存储在txt文件中。我已经为许多网站编写了这样做的代码,但是我遇到了一个障碍,BeautifulSoup似乎不起作用 以本网站为例: 我希望能够点击play by play按钮,然后从第一局、第二局等提取文本。有人知道这样做的方法吗,因为文本在原始HTML中不可用,就像我的所有其他示例一样 谢谢 我认为这不是BeautifulSoup的用意。您可以使用与页面进行交互,就像从浏览器进行交互一样,并模拟单击。然后从html中提取。@Lgiro

我有一种情况,我从网页上抓取数据,需要将数据(一组字符串)存储在txt文件中。我已经为许多网站编写了这样做的代码,但是我遇到了一个障碍,BeautifulSoup似乎不起作用

以本网站为例:

我希望能够点击play by play按钮,然后从第一局、第二局等提取文本。有人知道这样做的方法吗,因为文本在原始HTML中不可用,就像我的所有其他示例一样


谢谢

我认为这不是BeautifulSoup的用意。您可以使用与页面进行交互,就像从浏览器进行交互一样,并模拟单击。然后从html中提取。

@Lgiro是正确的。如果要使用页面元素进行操作,例如切换选项卡或单击按钮,则需要模拟浏览器并将javascript注入窗口。最好的工具是Selenium。以下是。

您是否有信心这将允许我提取文本,即使它在HTML中不适用于此特定网站(按原样)?是的。单击链接后,HTML将可用。单击“按播放播放”调用一些填充“.tab content”div的javascript。您可以通过单击“按播放播放”来验证这一点,然后右键单击表中的一个元素并转到“Inspect element”。好的,这看起来很简单。但是,我的另一个问题是,我是否能够提取该表中的文本,即使它在主站点的HTML中不可用?@RickAhlf,我不确定什么不可用。正如我所检查的,所有内容都呈现为html。唯一的问题是,你需要点击一些按钮,以便找到你想要的地方。我将完成它,看看我是否遇到任何问题。谢谢