Python 字节中字符的正则表达式模式";“字符串”;除了特定的标点符号-蟒蛇3

Python 字节中字符的正则表达式模式";“字符串”;除了特定的标点符号-蟒蛇3,python,regex,python-3.x,Python,Regex,Python 3.x,我有一个文本文件,必须作为二进制文件读取才能工作。我试图提取一些数据并将其放入csv文件中 一些文本的示例如下所示: “标题”的“标题”的“名称”的“日期”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的”的“日”的“日”的“日”的“日”的“日”的”的“日”的“日”的“日”的“日”的“日”的”的“日”的“摘要”的“摘要”的“摘要”的“日”的“摘要”的“日”的“日”的“摘要”的“日”的“日”的“日”的“日”的”的“摘

我有一个文本文件,必须作为二进制文件读取才能工作。我试图提取一些数据并将其放入csv文件中

一些文本的示例如下所示:

“标题”的“标题”的“名称”的“日期”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的“日”的”的“日”的“日”的“日”的“日”的“日”的”的“日”的“日”的“日”的“日”的“日”的”的“日”的“摘要”的“摘要”的“摘要”的“日”的“摘要”的“日”的“日”的“摘要”的“日”的“日”的“日”的“日”的”的“摘要”的“日”的“日”的”的“摘要”的“日”的“日”的“日”的“日”的“日”的“日”的”的“日”的”的”的“日”的”的“摘要“\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t“我发明的目的是通过在灯的制造过程中增加一个新的步骤来减少这种减少的速度或数量,如下所示:在灯已经排尽空气并通过排气管的熔化以通常的方式密封后,我连接灯”;""12234"";"";1.0“'


我想在“;“并尝试了以下方法:

contentRegex = re.compile(b'\s{4,}"([\w+\s]+);(\d{4})\.\d;""([\w+\s+]+)"(.+[^;])')
它似乎工作得很好,除了最后一部分,它在第一部分之后继续抓取文本”;“它看到了。所以下面的正则表达式模式似乎是错误的:

(.+[^;])
我将感谢任何帮助


如果您确实需要使用regexp,请尝试以下方法: (.*); 或
([a-zA-Z]*?)

如果确实需要使用regexp,请尝试以下方法:
;(.*?);
;([a-zA-Z]*?);

为什么必须以二进制形式读取它?“我想在”;“--考虑到正则表达式的复杂性,听起来你想做的远不止这些。你为什么不直接进行拆分?”;“?除非是二进制文件,否则我无法读取该文件。此外,由于文件中有许多不同的格式,因此存在一些解码问题。我相信我无法继续拆分”;“因为数据是字节格式,而不是str。为什么必须以二进制形式读取它?”我想提取“;”之间的片段。“--考虑到正则表达式有多复杂,听起来你想做的远不止这些。为什么不直接拆分“;”;“?除非是二进制文件,否则我无法读取该文件。此外,由于文件中有许多不同的格式,因此存在一些解码问题。我相信我无法继续拆分”;“因为数据是字节格式,而不是str。我想捕获任何字符或标点符号(分号或新行除外),所以[a-zA-Z]不太有效,但谢谢!因此,您可以使用0-9和smth进行修改以满足您的需要。我还希望包括除分号以外的所有标点符号。我所做的似乎不是很有效…@AlisonLT您可以分两步完成。首先,使用
;(.*)
regexp。其次,将结果发送到
[^;]
它将剪切分号。我想捕获任何字符或标点符号(分号除外;或新行),所以[a-zA-Z]不太有效,但谢谢!因此,您可以使用0-9和smth进行修改以满足您的需要。我还希望包括除分号以外的所有标点符号。我所做的似乎不是很有效…@AlisonLT您可以分两步完成。首先,使用
;(.*)
regexp。其次,将结果发送到
[^;]
并且它将剪切分号。