需要帮助将html解析为python数据框架吗

需要帮助将html解析为python数据框架吗,python,dataframe,finance,Python,Dataframe,Finance,试图将数据从html提取到数据框中 从这段html 4月22日20日01:30彭博社 4月21日至20日10:43下午投资者商报 彭博社晚上9:31 下午8:00彭博社 路透社下午7:27 4月20日至20日晚上9:00本辛加 我终于找到了解析这些数据的方法。这是一个有效的解决方案。我仍然有一个日期问题,但它将数据放在一个数据框中 ticker = 'AAPL' NEWS_URL = 'https://finviz.com/news.ashx' STOCK_URL = 'https://f

试图将数据从html提取到数据框中

从这段html


4月22日20日01:30彭博社
4月21日至20日10:43下午投资者商报
彭博社晚上9:31
下午8:00彭博社
路透社下午7:27
4月20日至20日晚上9:00本辛加

我终于找到了解析这些数据的方法。这是一个有效的解决方案。我仍然有一个日期问题,但它将数据放在一个数据框中

ticker = 'AAPL'
NEWS_URL = 'https://finviz.com/news.ashx'
STOCK_URL = 'https://finviz.com/quote.ashx'
page_parsed, _ = http_request_get(url=STOCK_URL, payload={'t': ticker}, parse=True)
table = page_parsed.cssselect('table[class="fullview-news-outer"]')[0]
all_news = page_parsed.cssselect('a[class="tab-link-news"]')
headers = ['Datetime', 'Description', 'Space', 'Source']
urls = [row.get('href') for row in all_news] 
data = [dict(zip(headers, row.xpath('td//text()'))) for row in table[0:]]
df1 = pd.DataFrame(urls) 
df2 = pd.DataFrame(data) 
mergedDf = df2.merge(df1, left_index=True, right_index=True)
mergedDf = mergedDf.rename(columns={0: "url"})
mergedDf = mergedDf.drop(['Space'], axis=1)
mergedDf['ticker'] = ticker

我终于明白了如何解析这些数据,这是一个有效的解决方案我仍然有一个日期问题,但它将数据放在一个数据框中

ticker = 'AAPL'
NEWS_URL = 'https://finviz.com/news.ashx'
STOCK_URL = 'https://finviz.com/quote.ashx'
page_parsed, _ = http_request_get(url=STOCK_URL, payload={'t': ticker}, parse=True)
table = page_parsed.cssselect('table[class="fullview-news-outer"]')[0]
all_news = page_parsed.cssselect('a[class="tab-link-news"]')
headers = ['Datetime', 'Description', 'Space', 'Source']
urls = [row.get('href') for row in all_news] 
data = [dict(zip(headers, row.xpath('td//text()'))) for row in table[0:]]
df1 = pd.DataFrame(urls) 
df2 = pd.DataFrame(data) 
mergedDf = df2.merge(df1, left_index=True, right_index=True)
mergedDf = mergedDf.rename(columns={0: "url"})
mergedDf = mergedDf.drop(['Space'], axis=1)
mergedDf['ticker'] = ticker

如果您只想获得HTML页面中可以看到的符号,请计算打开和关闭标记(<和>),如果余额为零,则保留该部分。到目前为止您尝试了什么?什么不起作用?如果您只想获取HTML页面中可以看到的符号,请计算打开和关闭标记(<和>),如果余额为零,则保留该部分。到目前为止您尝试了什么?什么不起作用?