Python 解析html<;p>;标记到csv/dataframe

Python 解析html<;p>;标记到csv/dataframe,python,parsing,beautifulsoup,Python,Parsing,Beautifulsoup,这是我在一个网页上的输出。之后 soup = BeautifulSoup(data) 我有这个: <html> <body> <p>EXCHANGE%3DNSE 交换%3dense 市场开放时间分钟=555 市场\收盘\分钟=930 间隔=900列=日期、收盘、高位、低位、开盘、成交量、CDAYS数据=时区偏移量=330 A14972400001634.71648.851633.851641.95171301,0,11

这是我在一个网页上的输出。之后

soup = BeautifulSoup(data)
我有这个:

<html>
    <body>
            <p>EXCHANGE%3DNSE 

交换%3dense
市场开放时间分钟=555 市场\收盘\分钟=930 间隔=900列=日期、收盘、高位、低位、开盘、成交量、CDAYS数据=时区偏移量=330 A14972400001634.71648.851633.851641.95171301,0,11635.71644.451634.351634.750969,021640.051640.41635.51635.5131752,0


整个文本都在标记中,因此获得了该p标记并使用了data.split()。再把绳子切成一行。不确定这是否有效,但我只需要一个特定的值。我来看看正则表达式。10Q输入

我建议您看看正则表达式。我不会称之为“简单”。:)如果你能告诉我们你是从哪里得到的,这可能会对我们有所帮助。如果这是一个关于如何解析标记中的文本条目的问题,建议是regex,你可能想看看。您通常希望使用除正则表达式以外的其他方法从段落标记中获取条目。如果你已经可以得到文本条目,并且你需要知道如何解析它,你可能想重写你的问题来表达这就是你的全部要求。@Scottmermestein是的,他没有显示任何html标记,只是在我发表评论时的

之间的一点,所以把你的手指指向OP而不是我。我绝对赞同regex q/a用于解析任何/所有HTML的一般问题,但IRL用于非常有限的HTML子集,并且有意识地理解,有限子集的解析解决方案不是解析任何/所有HTML的一般问题的解决方案,那么我说使用regex并继续进行。当然,你必须很好地处理有限子集是什么…@barny是的,当我看到他发布的内容时,似乎这将是正则表达式不一定是完全邪恶的情况之一。但我很少有机会链接到这个答案,所以我还是抓住了它。:-)