Python Web爬网-无法从HTML和XHR代码中找到数据表_Python_Pandas_Xmlhttprequest

Python Web爬网-无法从HTML和XHR代码中找到数据表

python pandas

Python Web爬网-无法从HTML和XHR代码中找到数据表,python,pandas,xmlhttprequest,Python,Pandas,Xmlhttprequest,我试图使用python（可能是pandas或BeautifulSoup模块）在这个页面上对包含50只股票的表进行爬网，并在表的第一列中附加到每个公司名称的基础超链接当我检查它的HTML代码时，我找不到公司名称或公司代码，例如“agilic”和“AGILC”，因此我认为它们可能来自Ajax调用然而，当我打开ChromeDevTools并检查XHR时，我发现数据似乎也不是来自XHR 然后我继续尝试pandas read_html函数来读取页面上的表，不知怎么的，数据可以被读取，整个表可以被爬网（

我试图使用python（可能是pandas或BeautifulSoup模块）在这个页面上对包含50只股票的表进行爬网，并在表的第一列中附加到每个公司名称的基础超链接

当我检查它的HTML代码时，我找不到公司名称或公司代码，例如“agilic”和“AGILC”，因此我认为它们可能来自Ajax调用

然而，当我打开ChromeDevTools并检查XHR时，我发现数据似乎也不是来自XHR

然后我继续尝试pandas read_html函数来读取页面上的表，不知怎么的，数据可以被读取，整个表可以被爬网（我不明白pandas是怎么做到的）！但即便如此，使用此方法，我无法从公司名称的第一列获取基础超链接，因此在我的示例中，此方法仍然不够好

有谁能告诉我表到底隐藏在哪里？有没有什么方法可以让我同时抓取表和底层超链接

非常感谢

您好，当数据由JS动态加载时，您可以利用

Selenium

library来捕获内容。Hi@Pooria\T正如您在网站上提到的那样，我刚刚尝试了Selenium，之后我使用BeautifulSoup提取所有“a”链接，但仍然缺少链接。不知道为什么。。。你也可以试试吗？我刚刚又试了一次，一个看似可行的解决方案是在代码中加入time.sleep（X）函数，从而允许Selenium有时间加载完整的代码。。。似乎。你能用

sleep（）

修复它吗？