Python 2.7 解析输入并构造输出#推文中的关键字

Python 2.7 解析输入并构造输出#推文中的关键字,python-2.7,csv,pandas,dataset,data-cleaning,Python 2.7,Csv,Pandas,Dataset,Data Cleaning,我试图将推特文本中的所有#关键字与其他列一起放在一个单独的列中。我没有提到其他专栏,因为它们只会造成混乱 没有#关键字的tweetText将被删除,那些有关键字的将被搜索出来并放在不同的栏中 我有点迷失在需要从tweetText中过滤#关键字的部分 输入:TweetsID,Tweets(有更多列) 预期输出:tweetId、hashKey(也将有其他列) 代码: 感谢您的建议 编辑一个: 当在选择的答案中解析输入时,我得到一些语法错误 代码: import re import pandas as

我试图将
推特文本
中的所有
#关键字
与其他列一起放在一个单独的列中。我没有提到其他专栏,因为它们只会造成混乱

没有
#关键字的
tweetText
将被删除,那些有关键字的将被搜索出来并放在不同的栏中

我有点迷失在需要从
tweetText
中过滤
#关键字的部分

输入:TweetsID,Tweets(有更多列)

预期输出:tweetId、hashKey(也将有其他列)

代码:

感谢您的建议

编辑一个:

当在选择的答案中解析输入时,我得到一些语法错误

代码:

import re
import pandas as pd

df = pd.readcsv('Turkey_Text.csv')
tweet_column = ['tweetText']
for idx in range(len(tweet_column)):
    tweet = tweet_column[idx]
    hashtag_list = re.findall(r('#\w+)', tweet)
    tweet_column[idx] = " ".join(hashtag_list)

print tweet_column[idx]
错误:

File "keyword_split.py", line 9
    tweet_column[idx] = " ".join(hashtag_list)
               ^
SyntaxError: invalid syntax
预期产量

714600471512670212,#Helsinki 
714600471512670212,#pyöräily 
714600471512670212,#cycling
714593900053180416,#hiring! 
714593900053180416,#lifeinspiringcareers 
714593900053180416,#Moscow 
714593900053180416,#Sales
714591380660731904,#открытаякарта
714591338977579009,#edmonton 
714591338977579009,#edm 
714591338977579009,#edmlife 
714591338977579009,#edms 
714591338977579009,#edmlifestyle 
714591338977579009,#edmfamily 
714591338977579009,#edmgirls 
714591338977579009,#edmlov"
使用。这会让你的生活轻松很多。 正则表达式
r'#(\w+)
在这种情况下运行良好

我不完全理解您的代码流程,因为我没有太多使用panda搜索CSV的经验,但如果根据我对传统python逻辑的理解,您要隔离tweet并向该列返回一个关键字/哈希标记字符串,它可能看起来像这样

import re

for idx in range(len(tweet_column)):
    tweet = tweet_column[idx]
    hashtag_list = re.findall(r('#\w+)', tweet)
    tweet_column[idx] = " ".join(hashtag_list)

谢谢。。我并不严格要求只使用pandas,只是它允许标题识别列。完整的数据集大约有20列,我想在纯python中它会变得非常混乱。如果你能提供合适的代码,那就太好了。对不起,目前我没有足够的lambda表达式的经验来帮助你。也许其他人会过来帮忙。与此同时,请查看我链接的资源,看看您是否可以自己尝试一下。谢谢您的解决方案。如果您可以包括输入和输出的读写模块,这将是很大的帮助。我无法遵守当前的准则。
File "keyword_split.py", line 9
    tweet_column[idx] = " ".join(hashtag_list)
               ^
SyntaxError: invalid syntax
714600471512670212,#Helsinki 
714600471512670212,#pyöräily 
714600471512670212,#cycling
714593900053180416,#hiring! 
714593900053180416,#lifeinspiringcareers 
714593900053180416,#Moscow 
714593900053180416,#Sales
714591380660731904,#открытаякарта
714591338977579009,#edmonton 
714591338977579009,#edm 
714591338977579009,#edmlife 
714591338977579009,#edms 
714591338977579009,#edmlifestyle 
714591338977579009,#edmfamily 
714591338977579009,#edmgirls 
714591338977579009,#edmlov"
import re

for idx in range(len(tweet_column)):
    tweet = tweet_column[idx]
    hashtag_list = re.findall(r('#\w+)', tweet)
    tweet_column[idx] = " ".join(hashtag_list)