如何从文本中提取所需信息?python

如何从文本中提取所需信息?python,python,Python,我想要外型:塔玛·塔玛,0529589055 从这篇课文中,我不得不多次这样做 <h3 class="name">tamar tamar</h3> <ul class="list-inline"> <li>gender:female</li> <li>

我想要外型:塔玛·塔玛,0529589055

从这篇课文中,我不得不多次这样做

                    <h3 class="name">tamar tamar</h3>
                    <ul class="list-inline">
                        <li>gender:female</li>
                        <li>age:20</li>
                    <li class="phone" data="0529589055">phone:  0529589055</li>
                    <li class="email" data="tamar0529589055@gmail.com">email: tamar89055@gmail.com</li>         <!--                        <a 

你有没有想过尝试使用正则表达式? 例如,一个简单的\w+\w+将提取名称。至少对于上面的例子。 对于数字,例如: 0\d+从我的头顶开始

我发现易于使用的在线regex网站:

和python正则表达式文档:

就是您要找的

from bs4 import BeautifulSoup
a='''<h3 class="name">tamar tamar</h3>
<ul class="list-inline">
    <li>gender:female</li>
    <li>age:20</li>
<li class="phone" data="0529589055">phone:  0529589055</li>
<li class="email" data="tamar0529589055@gmail.com">email: tamar89055@gmail.com</li> 
'''
soup = BeautifulSoup(a)
print(soup.find('h3',{"class": "name"}).text)
print(soup.find('li',{"class":'phone'}).text)

这个问题显然是可以改进的。请发布一个更清晰、更详细的问题,这样你也可以得到一个好的、详细的答案。这看起来像HTML,而不仅仅是普通的旧文本。这是最好的选择。关于这个话题,这里有一个很有启发性的话题可能重复的