如何使用Python拆分数据库中的一系列字符串,然后透视显示单词及其出现次数的结果
如果我有一个数据库,有100个成千上万个单独的字符串组合,带有一个简单的分隔符 如何拆分每个维度的字符串,然后在列输出中按字计数 我是python新手,所以我了解一个简单的拆分和DF设置的基础知识,但我不知道如何将它们组合在一起 例如,下面是如何工作的,但我不确定我是否会循环使用我拥有的所有字符串?似乎这将是一个不同的方式,我将如何计算所有的结果如何使用Python拆分数据库中的一系列字符串,然后透视显示单词及其出现次数的结果,python,split,nlp,word-count,Python,Split,Nlp,Word Count,如果我有一个数据库,有100个成千上万个单独的字符串组合,带有一个简单的分隔符 如何拆分每个维度的字符串,然后在列输出中按字计数 我是python新手,所以我了解一个简单的拆分和DF设置的基础知识,但我不知道如何将它们组合在一起 例如,下面是如何工作的,但我不确定我是否会循环使用我拥有的所有字符串?似乎这将是一个不同的方式,我将如何计算所有的结果 txt = "word1 | word 2 | word 3 | etc " x = txt.split() print(x) 任何帮助,包括在
txt = "word1 | word 2 | word 3 | etc "
x = txt.split()
print(x)
任何帮助,包括在何处了解我所做工作的基础知识的资源,都会很有帮助。一个好的方法是使用熊猫 将数据库加载到数据框并使用string命令 以下是一个例子:
df = pd.DataFrame({"words":["word1 | word 2 | word 3 | etc", "word 4 | word 5"]})
words
0 word1 | word 2 | word 3 | etc
1 Word 4 | Word 5
要拆分这些值,请执行以下操作:
result = df.words.str.split("|", expand=True)
result
0 1 2 3
0 word1 word 2 word 3 etc
1 word 4 word 5 None None
在python中,我们有一个名为字典的数据结构。这里,我们有一个键值对,其中值存储与键相关的信息。从这里了解更多信息- 有一种快捷方式可以获取字符串计数:
from collections import Counter
words = txt.split('|)
counts = Counter(words)
现在,字典
统计存储字符串及其出现的时间。要获取字符串的频率,比如说'word1'
,您需要编写计数['word1']
。请随时要求澄清 获取计数的方法有很多,例如:
x = len(txt.split("|"))
但不需要拆分,只需计算分隔符+第一个元素:
txt.count("|") + 1
如果您只想在txt
中获取由“|”
分隔的项目数,那么您可以简单地执行以下操作:words\u count=txt.count(“|”)+1
这将为我提供每个字符串路径的正确单词数?可能有数千个不同的单词。有没有一种方法可以实现计数['word1']的自动化?我需要拆分它们,然后旋转每个单词的聚合总数,这样我的索引就是单词,列就是单词的总和。为了进一步扩展,我正在处理许多字符串,这些字符串需要相互关联,因此如果在一个字符串中我有“Jim1 |单词2 |单词3 |等”,在另一个字符串中我有“Jim1 |单词1 |单词2”我需要能够在稍后的SQL中选择Jim,以返回Jim1出现时出现的单词的集合。“单词1”出现过一次,“单词2”出现过两次,“单词3”出现过一次我知道会有多个步骤,但添加此上下文可能会有所帮助。