Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/20.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在python中使用文本文件(路径特定)中的特定单词(RegEx)追加CSV #编码=utf-8 #Python的libreriaregex。 进口稀土 #拉塔斯图书馆。 导入操作系统 导入csv #功能扫描文件夹日志 def scan_文件夹(): #目_Python_Regex_Csv_Path - Fatal编程技术网

在python中使用文本文件(路径特定)中的特定单词(RegEx)追加CSV #编码=utf-8 #Python的libreriaregex。 进口稀土 #拉塔斯图书馆。 导入操作系统 导入csv #功能扫描文件夹日志 def scan_文件夹(): #目

在python中使用文本文件(路径特定)中的特定单词(RegEx)追加CSV #编码=utf-8 #Python的libreriaregex。 进口稀土 #拉塔斯图书馆。 导入操作系统 导入csv #功能扫描文件夹日志 def scan_文件夹(): #目,python,regex,csv,path,Python,Regex,Csv,Path,在python中使用文本文件(路径特定)中的特定单词(RegEx)追加CSV #编码=utf-8 #Python的libreriaregex。 进口稀土 #拉塔斯图书馆。 导入操作系统 导入csv #功能扫描文件夹日志 def scan_文件夹(): #目录“路径” 路径='/Users/../diarioficial' #菲希罗斯大道酒店 计数=0 #变量声明 公司名称=“” 公司资本=“” #将csv创建为csvFile 将open('aaa.csv','a')作为csvFile: #迭代文

在python中使用文本文件(路径特定)中的特定单词(RegEx)追加CSV
#编码=utf-8
#Python的libreriaregex。
进口稀土
#拉塔斯图书馆。
导入操作系统
导入csv
#功能扫描文件夹日志
def scan_文件夹():
#目录“路径”
路径='/Users/../diarioficial'
#菲希罗斯大道酒店
计数=0
#变量声明
公司名称=“”
公司资本=“”
#将csv创建为csvFile
将open('aaa.csv','a')作为csvFile:
#迭代文件夹diarioficial中没有名称的所有路径
对于os.walk(路径)中的(路径、目录名、文件名):
#迭代路径中的所有文件(+文件名)
对于文件名中的文件名:
#添加所需的扩展名
如果文件_name.endswith(“.txt”):
#日志文件夹中的汇总计数文件
计数=计数+1
#连接路径+文件名
file\u path=os.path.join(路径,文件名)
#打印(文件路径)
#打开并读取文件路径
mensaje=打开(文件路径).read()
#替换空间的换行符
mensaje=mensaje.replace(“\n”,”)
#公司名称
关键词_cap=['SpA'、'SpA'、'LIMITADA'、'LTDA'、'S.A.、'E.I.R.L.]
关键词\u cap=map(关于逃逸,关键词\u cap)
关键词_cap.sort(key=len,reverse=True)

obj=re.compile(r'[:,;.]\s*”?([^:,;.]*?(?将代码从
csvData=[公司名称,公司资本]
推送到
writer.writerow(csvData)
with
语句内部缩进非常重要,此时写入的代码在
with
语句外部,因此文件会自动关闭。请尝试将这五行缩进到与
print()
语句相同的数量。
# coding=utf-8
# Libreria RegEx de Python.
import re
# Libreria para rutas.
import os
import csv

# function scan folder DiarioOficial
def scan_folder():
    # directory 'path'
    path = '/Users/.../DiarioOficial'
    # contador de ficheros del path
    count = 0
    # variables declaration
    company_name = ''
    company_capital = ''

    # creation csv as csvFile
    with open('aaa.csv', 'a') as csvFile:
        # iterate all paths in the folder DiarioOficial without name
        for (path, dirnames, file_names) in os.walk(path):
            # iterate over all the files in the path (+ file_name)
            for file_name in file_names:
                # Add extension that is required
                if file_name.endswith(".txt"):
                    # summatory count files in DiarioOficial folder
                    count = count + 1
                    # concatenation path + file name
                    file_path=os.path.join(path, file_name)
                    #print(file_path)
                    # open and read the file path
                    mensaje = open(file_path).read()
                    # Replace a newline for a space
                    mensaje = mensaje.replace("\n","")

                    # Company Name
                    keywords_cap = ['SpA', 'SPA', 'LIMITADA', 'LTDA', 'S.A.', 'E.I.R.L.']
                    keywords_cap = map(re.escape, keywords_cap)
                    keywords_cap.sort(key=len, reverse=True)
                    obj = re.compile(r'[:,;.]\s*"?([^:,;.]*?(?<!\w)(?:{}))'.format('|'.join(keywords_cap)))
                    if obj:
                        company_name = obj.search(mensaje)
                    else:
                        company_name = "None"

                    # Social Capital ($)
                    cap = r"\s*(CAPITAL:\s+([^-]*)|Capital social:\s+([^-]*)|Capital:\s+([^-]*))"
                    caps = re.search(cap, mensaje)
                    if caps:
                        company_capital = caps.group()
                    else:
                        company_capital = 'None'
        print (count)

    csvData = [company_name, company_capital]
    writer = csv.writer(csvFile, delimiter='-')
    headers = ['COMPANY NAME', 'COMPANY CAPITAL']
    writer.writerow(headers)  # print the header row
    writer.writerow(csvData)  # print the Data in csv

scan_folder()