如何从文本中提取所需信息？python_Python

如何从文本中提取所需信息？python

python

如何从文本中提取所需信息？python,python,Python,我想要外型：塔玛·塔玛，0529589055 从这篇课文中，我不得不多次这样做 <h3 class="name">tamar tamar</h3> <ul class="list-inline"> <li>gender:female</li> <li>

我想要外型：塔玛·塔玛，0529589055

从这篇课文中，我不得不多次这样做

                    <h3 class="name">tamar tamar</h3>
                    <ul class="list-inline">
                        <li>gender:female</li>
                        <li>age:20</li>
                    <li class="phone" data="0529589055">phone:  0529589055</li>
                    <li class="email" data="tamar0529589055@gmail.com">email: tamar89055@gmail.com</li>         <!--                        <a

你有没有想过尝试使用正则表达式？例如，一个简单的\w+\w+将提取名称。至少对于上面的例子。对于数字，例如： 0\d+从我的头顶开始

我发现易于使用的在线regex网站：

和python正则表达式文档：

就是您要找的

from bs4 import BeautifulSoup
a='''<h3 class="name">tamar tamar</h3>
<ul class="list-inline">
    <li>gender:female</li>
    <li>age:20</li>
<li class="phone" data="0529589055">phone:  0529589055</li>
<li class="email" data="tamar0529589055@gmail.com">email: tamar89055@gmail.com</li> 
'''
soup = BeautifulSoup(a)
print(soup.find('h3',{"class": "name"}).text)
print(soup.find('li',{"class":'phone'}).text)

这个问题显然是可以改进的。请发布一个更清晰、更详细的问题，这样你也可以得到一个好的、详细的答案。这看起来像HTML，而不仅仅是普通的旧文本。这是最好的选择。关于这个话题，这里有一个很有启发性的话题可能重复的