Python 2.7 解析输入并构造输出#推文中的关键字_Python 2.7_Csv_Pandas_Dataset_Data Cleaning

Python 2.7 解析输入并构造输出#推文中的关键字

python-2.7 csv pandas

Python 2.7 解析输入并构造输出#推文中的关键字,python-2.7,csv,pandas,dataset,data-cleaning,Python 2.7,Csv,Pandas,Dataset,Data Cleaning,我试图将推特文本中的所有#关键字与其他列一起放在一个单独的列中。我没有提到其他专栏，因为它们只会造成混乱没有#关键字的tweetText将被删除，那些有关键字的将被搜索出来并放在不同的栏中我有点迷失在需要从tweetText中过滤#关键字的部分输入：TweetsID，Tweets（有更多列）预期输出：tweetId、hashKey（也将有其他列）代码：感谢您的建议编辑一个：当在选择的答案中解析输入时，我得到一些语法错误代码： import re import pandas as

我试图将

推特文本

中的所有

#关键字

与其他列一起放在一个单独的列中。我没有提到其他专栏，因为它们只会造成混乱

没有

#关键字的tweetText
将被删除，那些有关键字的将被搜索出来并放在不同的栏中
我有点迷失在需要从tweetText
中过滤#关键字的部分
输入：TweetsID，Tweets（有更多列）
预期输出：tweetId、hashKey（也将有其他列）
代码：
感谢您的建议
编辑一个：
当在选择的答案中解析输入时，我得到一些语法错误
代码：
import re
import pandas as pd

df = pd.readcsv('Turkey_Text.csv')
tweet_column = ['tweetText']
for idx in range(len(tweet_column)):
    tweet = tweet_column[idx]
    hashtag_list = re.findall(r('#\w+)', tweet)
    tweet_column[idx] = " ".join(hashtag_list)

print tweet_column[idx]

错误：
File "keyword_split.py", line 9
    tweet_column[idx] = " ".join(hashtag_list)
               ^
SyntaxError: invalid syntax

预期产量
714600471512670212,#Helsinki 
714600471512670212,#pyöräily 
714600471512670212,#cycling
714593900053180416,#hiring! 
714593900053180416,#lifeinspiringcareers 
714593900053180416,#Moscow 
714593900053180416,#Sales
714591380660731904,#открытаякарта
714591338977579009,#edmonton 
714591338977579009,#edm 
714591338977579009,#edmlife 
714591338977579009,#edms 
714591338977579009,#edmlifestyle 
714591338977579009,#edmfamily 
714591338977579009,#edmgirls 
714591338977579009,#edmlov"

使用。这会让你的生活轻松很多。
正则表达式r'#（\w+）
在这种情况下运行良好
我不完全理解您的代码流程，因为我没有太多使用panda搜索CSV的经验，但如果根据我对传统python逻辑的理解，您要隔离tweet并向该列返回一个关键字/哈希标记字符串，它可能看起来像这样
import re

for idx in range(len(tweet_column)):
    tweet = tweet_column[idx]
    hashtag_list = re.findall(r('#\w+)', tweet)
    tweet_column[idx] = " ".join(hashtag_list)

谢谢。。我并不严格要求只使用pandas，只是它允许标题识别列。完整的数据集大约有20列，我想在纯python中它会变得非常混乱。如果你能提供合适的代码，那就太好了。对不起，目前我没有足够的lambda表达式的经验来帮助你。也许其他人会过来帮忙。与此同时，请查看我链接的资源，看看您是否可以自己尝试一下。谢谢您的解决方案。如果您可以包括输入和输出的读写模块，这将是很大的帮助。我无法遵守当前的准则。
File "keyword_split.py", line 9
    tweet_column[idx] = " ".join(hashtag_list)
               ^
SyntaxError: invalid syntax

714600471512670212,#Helsinki 
714600471512670212,#pyöräily 
714600471512670212,#cycling
714593900053180416,#hiring! 
714593900053180416,#lifeinspiringcareers 
714593900053180416,#Moscow 
714593900053180416,#Sales
714591380660731904,#открытаякарта
714591338977579009,#edmonton 
714591338977579009,#edm 
714591338977579009,#edmlife 
714591338977579009,#edms 
714591338977579009,#edmlifestyle 
714591338977579009,#edmfamily 
714591338977579009,#edmgirls 
714591338977579009,#edmlov"

import re

for idx in range(len(tweet_column)):
    tweet = tweet_column[idx]
    hashtag_list = re.findall(r('#\w+)', tweet)
    tweet_column[idx] = " ".join(hashtag_list)