Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/python-2.7/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
提取python中的特定文本_Python_Python 2.7_Python 3.x - Fatal编程技术网

提取python中的特定文本

提取python中的特定文本,python,python-2.7,python-3.x,Python,Python 2.7,Python 3.x,从下面的文本文件中,如何将所需的字符集从每一行提取到python中的列表中?所需字符为“仅REQUIRED1.JPG”、“仅REQUIRED2.JPG”、“仅REQUIRED3.JPG”。因此,结果应该是: result = ['ONLY REQUIRED1.JPG', 'ONLY REQUIRED2.JPG', 'ONLY REQUIRED3.JPG'] x'<xxx "-//xxx//xxxx//xx">\n<ggg>\n <kkk>\n <t

从下面的文本文件中,如何将所需的字符集从每一行提取到python中的列表中?所需字符为“仅REQUIRED1.JPG”、“仅REQUIRED2.JPG”、“仅REQUIRED3.JPG”。因此,结果应该是:

result = ['ONLY REQUIRED1.JPG', 'ONLY REQUIRED2.JPG', 'ONLY REQUIRED3.JPG']


x'<xxx "-//xxx//xxxx//xx">\n<ggg>\n <kkk>\n  <title>asdf asdf/xx/aaa.xxx/bbb.bb.cc</asdf>\n </head>\n <body>\n<pre>\ndhh\n</pre>\n<pre><img src="/icons/blank.gif" alt="Icon "> <a href="?C=N;O=D">Name</a>                                    alt="[DIR]"> <a href="/asdf/kkkk.xxx/">Parent Directory</a>                                                        \n<img src="/lllll/ttt.gif" alt="[IMG]"> \n <a href="ONLY_REQUIRED1.JPG">ertwe</a> \n href="ONLY_REQUIRED2.JPG">x'<xxx "-//xxx//xxxx//xx">\n<ggg>\n <kkk>\n  <title>asdf asdf/xx/aaa.xxx/bbb.bb.cc</asdf>\n </head>\n <body>\n<pre>\ndhh\n</pre>\n<pre><img src="/icons/blank.gif" alt="Icon "> <a href="?C=N;O=D">Name</a> \n href="ONLY_REQUIRED3.JPG">ertwe</a>
result=['ONLY REQUIRED1.JPG','ONLY REQUIRED2.JPG','ONLY REQUIRED3.JPG']
x'\n\n\n asdf asdf/xx/aaa.xxx/bbb.bb.cc\n\n\ndhh\n\n alt=“[DIR]”>\n\n\n\n href=“ONLY_REQUIRED2.JPG”>x'\n\n\n asdf asdf/xx/aaa.xxx/bbb.bb.cc\n\n\n\n\ndhh\n\n\n href=“ONLY_REQUIRED3.JPG”>
我愿意这样做


它使用正则表达式。它正在寻找任何以“ONLY_REQUIRED”开头,后跟数字,然后以“.JPG”

re.findall('ONLY_REQUIRED\d.JPG',my_text)
结尾的内容。新用户很难理解这些内容。请把代码分成两部分。首先,让我演示如何仅提取包含“.JPG”的行。然后,让我演示如何将所需文本提取到列表中。@Joran Beasley我的文本是什么意思?您从要搜索的文件中加载的文本@Joran Beasley谢谢,您的答案与我所问的答案相符。然而,当名称不同而不是“仅需”?时,我如何查找所有以“.JPG”结尾的名称呢?为了这个新的目的,我提出了新的问题
import re
my_text = open("some.html").read()
my_list = re.findall("ONLY_REQUIRED\d.JPG",my_text)
print my_list