使用python拆分段落

使用python拆分段落,python,string,replace,split,paragraph,Python,String,Replace,Split,Paragraph,我怎样才能有条理地把一整段分开? 例如: 下面是一个字符串 目的:评估印度斯利那加政府医学院野外实习地区成人创伤后应激障碍PTSD的患病率。方法:本研究为横断面研究,在斯利那加公立医学院的野外实习区进行。选择了斯利那加政府医学院的三个现场实习区,包括各个村庄。另外10%的村庄是通过随机抽样的方法选择的,然后10%的家庭是通过系统随机抽样再次选择的。在选定的家庭中,所有18岁及以上的成年人口都是通过使用一般健康问卷进行筛选的。对筛选出PTSD创伤后应激障碍阳性的患者进行评估和诊断。从列出阳性病例的

我怎样才能有条理地把一整段分开? 例如: 下面是一个字符串

目的:评估印度斯利那加政府医学院野外实习地区成人创伤后应激障碍PTSD的患病率。方法:本研究为横断面研究,在斯利那加公立医学院的野外实习区进行。选择了斯利那加政府医学院的三个现场实习区,包括各个村庄。另外10%的村庄是通过随机抽样的方法选择的,然后10%的家庭是通过系统随机抽样再次选择的。在选定的家庭中,所有18岁及以上的成年人口都是通过使用一般健康问卷进行筛选的。对筛选出PTSD创伤后应激障碍阳性的患者进行评估和诊断。从列出阳性病例的行中,计算患病率。结果:在3400名年龄>/=18岁的受试者中,普通人群中创伤后应激障碍的患病率为3.76%。女性患病率较高,卡方检验=2.086,p>0.05,无显著性差异。大多数病例发生在0-40岁年龄组。大多数病例未婚、文盲,属于社会经济较低阶层。近一人的死亡构成了重大创伤事件。急性发作的创伤后应激障碍是最常见的类型,12%的患者有精神病史,22.6%的患者有药物滥用。结论:我们的研究结果清楚地表明,创伤后应激障碍PTSD在发展中国家是一种普遍存在的疾病,特别是在灾害多发地区和政治动荡地区。多年来,克什米尔对各种创伤事件的恢复力有所提高,这可能解释了我们研究中创伤后精神障碍PTSD发病率较低的原因。”

使用python,我想将上述结果分成以下几段

目的:评估印度斯利那加政府医学院野外实习地区成人创伤后应激障碍PTSD的患病率

方法:本研究为横断面研究,在斯利那加公立医学院的野外实习区进行。选择了斯利那加政府医学院的三个现场实习区,包括各个村庄。另外10%的村庄是通过随机抽样的方法选择的,然后10%的家庭是通过系统随机抽样再次选择的。在选定的家庭中,所有18岁及以上的成年人口都是通过使用一般健康问卷进行筛选的。对筛选出PTSD创伤后应激障碍阳性的患者进行评估和诊断。从列出阳性病例的行中,计算患病率

结果:在3400名年龄>/=18岁的受试者中,普通人群中创伤后应激障碍的患病率为3.76%。女性患病率较高,卡方检验=2.086,p>0.05,无显著性差异。大多数病例发生在0-40岁年龄组。大多数病例未婚、文盲,属于社会经济较低阶层。近一人的死亡构成了重大创伤事件。急性发作的创伤后应激障碍是最常见的类型,12%的患者有精神病史,22.6%的患者有药物滥用

结论:我们的研究结果清楚地表明,创伤后应激障碍PTSD在发展中国家是一种普遍存在的疾病,特别是在灾害多发地区和政治动荡地区。多年来,克什米尔对各种创伤事件的恢复力有所提高,这可能解释了我们研究中创伤后精神障碍PTSD发病率较低的原因。”

最后,我想将每个段落存储到一个字符串中,其中包含obj、方法、结果和结论。 我该怎么做

这是我使用的代码:

   content = repr(content).replace(".", ".\n")
但有了这些,文本中的百分比(如22.6%)将被拆分为另一行

编辑:如果字符串属于列表中的对象,该怎么办

content = record.get("AB")
content=re.splitr\B\s?=[^\s:]+:,content


工作正常吗?

您可以在非单词字符e后面的空格上拆分。G标点符号,后跟单个单词,后跟冒号:

obj, method, result, conclusion = re.split(r"\B\s(?=[^\s:]+:)", subject)
如果正好有四个子字符串遵守这些规则,那么这将起作用

然而,似乎更具体的方法可能更好:

>>> regex = re.compile(r"""Objective:\s(.*?)Methodology:\s(.*?)
...                        Results:\s(.*?)Conclusion:\s(.*)""", re.S|re.X)
>>> obj, method, result, conclusion = regex.match(subject).groups()

其中主题包含输入字符串。

我认为坚持使用一个单词不是一个好主意。而且可能比任何标点符号都安全,比如逗号。因此,r[.!?]\s?=.+?:。如果strin
上面描述的g是列表中的对象吗?例如:records[1].getCONTENT输出将与上面描述的字符串相同。在这种情况下如何处理?哪个字符串?长文本?在我的示例中,只需将对该对象的引用替换为对主语的引用。