Python 如何从文本中删除陌生词
我正在建立一个情绪分析的新项目,希望删除任何陌生人的单词、字符、电子邮件或任何带有@或任何空格的名字,清除文本中的任何噪音Python 如何从文本中删除陌生词,python,preprocessor,Python,Preprocessor,我正在建立一个情绪分析的新项目,希望删除任何陌生人的单词、字符、电子邮件或任何带有@或任何空格的名字,清除文本中的任何噪音 input text ="@maggieNYT KFC must be out chicken. This guy itأ?آ?أ?آ?أ?آ?s losing his shit." 或 或 可以使用python中的re库来执行您要求的操作。您可以将正则表达式视为一种高级查找和替换函数 用户提供了一个正则表达式,该表达式将在中执行相关任务 …下面的正则表达式只是一个UR
input text ="@maggieNYT KFC must be out chicken. This guy itأ?آ?أ?آ?أ?آ?s losing his shit."
或
或
可以使用python中的re库来执行您要求的操作。您可以将正则表达式视为一种高级查找和替换函数
用户提供了一个正则表达式,该表达式将在中执行相关任务
…下面的正则表达式只是一个URL片段,而不仅仅是http、任何标点符号、用户名或任何非字母数字字符。它还用一个空格分隔单词
以下是我的建议
''.joinre.sub@[A-Za-z0-9]+|[^0-9A-Za-z\t]\\w+:\/\/\S+,x.split
在您的示例字符串上进行测试,它似乎也适用于您的情况。这是我的密码
导入Python正则表达式库
原文:str=输入
下面这行使用@Abijit的正则表达式
已清理:str=''.joinre.sub@[A-Za-z0-9]+|[^0-9A-Za-z\t]|\w+:\/\/\S+,原始.split
印刷清洁
每一个的输出如下所示:
肯德基一定是胆小鬼,这家伙在胡闹
是的宝贝为什么必胜客晚上10点打电话给你
该团队将于明天下午2点30分至5点30分抵达现场,提供HIV STI检测和免费避孕套,以及有关准备避孕和其他性健康问题的信息和建议
input text ="‰??Aye babe. Why is Pizza hut calling you at 10 PM?‰?? "
input text ="The team will be in @KingstonLibrary tomorrow from 2:30 - 5:30pm. Providingأ?آپ#HIVأ?آپ/ #STI tests &أ?آپ#freeأ?آپcondoms, along with information & advice onأ?آپ#PrEP #contraceptionأ?آپ& otherأ?آپ#sexualhealthأ?آپissues.