Python：使用许多文件作为输入_Python_Python 2.7_File_Input_Indexing

Python：使用许多文件作为输入

python python-2.7 file input indexing

Python：使用许多文件作为输入,python,python-2.7,file,input,indexing,Python,Python 2.7,File,Input,Indexing,我有一个程序，从网页中获取URL，并将网页作为.html文件保存在桌面上的文件夹中。现在我需要使用这些相同的.html文件，并将它们设置为下一个程序的输入。我的问题是如何将这些大约400多个文件作为输入输入到一个函数中，该函数将完成其余的工作？我目前也在使用python 2.7，但如果需要，我有最新的python可用。您的第二个函数可以获取如下文件名列表： def process(files): for f in files: # do stuff 您可以通过执行以下操

我有一个程序，从网页中获取URL，并将网页作为.html文件保存在桌面上的文件夹中。现在我需要使用这些相同的.html文件，并将它们设置为下一个程序的输入。我的问题是如何将这些大约400多个文件作为输入输入到一个函数中，该函数将完成其余的工作？我目前也在使用python 2.7，但如果需要，我有最新的python可用。

您的第二个函数可以获取如下文件名列表：

def process(files):
    for f in files:
        # do stuff

您可以通过执行以下操作获得文件列表

import os
files = os.listdir('/path/to/files')

您可以使用

glob.glob（）

返回与模式匹配的所有文件路径名，然后迭代所有文件并逐个处理它们

html_files = glob.glob("/path/to/*html")

for html_file in html_files:
    with open(html_file) as inputs:
        for line in inputs:
            # do your work on the line

这会解决你的问题 yourpath='path//to//file'

import os
for root, dirs, files in os.walk(yourpath, topdown=False):#topdown traversing
    for name in files:
        print(os.path.join(root, name))
        stuff
    for name in dirs:
        print(os.path.join(root, name))
        stuff

导入操作系统；os.listdir（）

？使用

glob.glob（“/path/to/*.html”）

列出所有文件如果我的文件是html，我还可以使用此选项吗？我必须打开并读取它们，所以我还需要一个urlopen（文件）？Python不会关心文件的内容是什么。问题是这些html文件是否存储在您的机器上？如果是这样，

urlopen

是不必要的，因为您可以使用

open

来读取它们。是的，我将文件存储在一个文件夹中，因此我正在执行file=open（path）现在我当前的问题是，我正在尝试仅获取paraphs文本并将其标记化。我正在使用ntlk标记，但首先我只需要段落标记中的正确文本。我在尝试美味的汤。找到所有的（'p'））