Python:使用许多文件作为输入

Python:使用许多文件作为输入,python,python-2.7,file,input,indexing,Python,Python 2.7,File,Input,Indexing,我有一个程序,从网页中获取URL,并将网页作为.html文件保存在桌面上的文件夹中。现在我需要使用这些相同的.html文件,并将它们设置为下一个程序的输入。我的问题是如何将这些大约400多个文件作为输入输入到一个函数中,该函数将完成其余的工作?我目前也在使用python 2.7,但如果需要,我有最新的python可用。您的第二个函数可以获取如下文件名列表: def process(files): for f in files: # do stuff 您可以通过执行以下操

我有一个程序,从网页中获取URL,并将网页作为.html文件保存在桌面上的文件夹中。现在我需要使用这些相同的.html文件,并将它们设置为下一个程序的输入。我的问题是如何将这些大约400多个文件作为输入输入到一个函数中,该函数将完成其余的工作?我目前也在使用python 2.7,但如果需要,我有最新的python可用。

您的第二个函数可以获取如下文件名列表:

def process(files):
    for f in files:
        # do stuff
您可以通过执行以下操作获得文件列表

import os
files = os.listdir('/path/to/files')

您可以使用
glob.glob()
返回与模式匹配的所有文件路径名,然后迭代所有文件并逐个处理它们

html_files = glob.glob("/path/to/*html")

for html_file in html_files:
    with open(html_file) as inputs:
        for line in inputs:
            # do your work on the line 

这会解决你的问题 yourpath='path//to//file'

import os
for root, dirs, files in os.walk(yourpath, topdown=False):#topdown traversing
    for name in files:
        print(os.path.join(root, name))
        stuff
    for name in dirs:
        print(os.path.join(root, name))
        stuff

导入操作系统;os.listdir()
?使用
glob.glob(“/path/to/*.html”)
列出所有文件如果我的文件是html,我还可以使用此选项吗?我必须打开并读取它们,所以我还需要一个urlopen(文件)?Python不会关心文件的内容是什么。问题是这些html文件是否存储在您的机器上?如果是这样,
urlopen
是不必要的,因为您可以使用
open
来读取它们。是的,我将文件存储在一个文件夹中,因此我正在执行file=open(path)现在我当前的问题是,我正在尝试仅获取paraphs文本并将其标记化。我正在使用ntlk标记,但首先我只需要段落标记中的正确文本。我在尝试美味的汤。找到所有的('p'))