在python上拆分正则表达式响应列
在Tweets数据上应用链接和hashtag的在python上拆分正则表达式响应列,python,regex,string,split,Python,Regex,String,Split,在Tweets数据上应用链接和hashtag的re.findall后,我收到一个对象数组。我的数据看起来像 b=['https://t.co/1u0dkzq2dV', 'https://t.co/3XIZ0SN05Q'] ['https://t.co/CJZWjaBfJU'] ['https://t.co/4GMhoXhBQO', 'https://t.co/0V'] ['https://t.co/Erutsftlnq'] ['https://t.co/86VvLJEzvG',
re.findall
后,我收到一个对象数组。我的数据看起来像
b=['https://t.co/1u0dkzq2dV', 'https://t.co/3XIZ0SN05Q']
['https://t.co/CJZWjaBfJU']
['https://t.co/4GMhoXhBQO', 'https://t.co/0V']
['https://t.co/Erutsftlnq']
['https://t.co/86VvLJEzvG', 'https://t.co/zCYv5WcFDS']
现在我想将其拆分为列,我使用以下命令
df = pd.DataFrame(b.str.split(',',1).tolist(),columns = ['flips','row'])
但它不工作,因为奇怪的数据类型,我想,我尝试了一些其他的解决方案以及。没有任何效果。这就是我所期待的,两个独立的专栏
https://t.co/1u0dkzq2dV https://t.co/3XIZ0SN05Q
https://t.co/CJZWjaBfJU
https://t.co/4GMhoXhBQO https://t.co/0V
https://t.co/Erutsftlnq
https://t.co/86VvLJEzvG
从你的问题中不清楚什么是你的数据的一部分。(是否包括方括号和单引号?)。在任何情况下,pandas函数都是非常多版本的,可以处理不规则的数据:
import StringIO
import pandas as pd
raw_data = """
['https://t.co/1u0dkzq2dV', 'https://t.co/3XIZ0SN05Q']
['https://t.co/CJZWjaBfJU']
['https://t.co/4GMhoXhBQO', 'https://t.co/0V']
['https://t.co/Erutsftlnq']
['https://t.co/86VvLJEzvG', 'https://t.co/zCYv5WcFDS']
"""
# You'll probably replace the StringIO part with the filename of your data.
df = pd.read_csv(StringIO.StringIO(raw_data), header=None, names=('flips','row'))
# Get rid of the square brackets and single quotes
for col in ('flips', 'row'):
df[col] = df[col].str.strip("[]'")
df
输出:
flips row
0 https://t.co/1u0dkzq2dV https://t.co/3XIZ0SN05Q
1 https://t.co/CJZWjaBfJU NaN
2 https://t.co/4GMhoXhBQO https://t.co/0V
3 https://t.co/Erutsftlnq NaN
4 https://t.co/86VvLJEzvG https://t.co/zCYv5WcFDS
请提供一份报告,描述您预期的行为。