Python 2.7 如何从文件列表中选择一些文件?

Python 2.7 如何从文件列表中选择一些文件?,python-2.7,data-extraction,Python 2.7,Data Extraction,因此,我正在阅读来自不同组织的多个文件。每个文件都有文件编号和组织。我试图通读文件列表,只从组织中找到那些文件'OCE',而忽略其他文件。我的目标是统计总共有多少文件来自'OCE',并打印出它们的文件号 我的问题是,如何对我只想从'OCE'中选择文件而忽略其他文件的部分进行编码?甚至不知道该使用哪种语句。非常感谢您的任何建议 for filepath in matches[:20]: with open (filepath,'rt') as mytext: mytext=

因此,我正在阅读来自不同组织的多个文件。每个文件都有文件编号和组织。我试图通读文件列表,只从组织中找到那些文件
'OCE'
,而忽略其他文件。我的目标是统计总共有多少文件来自
'OCE'
,并打印出它们的文件号

我的问题是,如何对我只想从
'OCE'
中选择文件而忽略其他文件的部分进行编码?甚至不知道该使用哪种语句。非常感谢您的任何建议

for filepath in matches[:20]:
    with open (filepath,'rt') as mytext:
        mytext=mytext.read()


        # Find all files from 'OCE'.
        grabOrg=re.findall(r'NSF\s+Org\s+\:\s+(OCE)',mytext)
        if len(grabOrg) != 0:
            OCEOrg=grabOrg[0]   **# Here is my question.**

            from collections import Counter
            countOrg=Counter(OCEOrg)
            print str(OCEOrg) + '|' + countOrg

您的正则表达式当前是否只包括那些包含“OCE”的正则表达式?你目前的问题到底是什么?所以我有一个来自不同组织的文件列表。每个文件都有组织信息。我想检查这些文件,只从组织的文件中捕获信息,如
grabOrg=re.findall(r'NSF\s+Org\s+\:\s+(OCE)”,mytext)
。是的,这很清楚。不清楚的是问题是什么;你的代码是否做了你想做的事情,如果不是的话,你应该具体说明它做了什么。它仍然打印出所有的
NSF组织
字段。那些不是来自
OCE
的是空白的
[]
。请用相关信息更新您的问题-提供您正在做的事情、示例输入以及预期和实际输出的清晰描述