Python 如何从文本中删除陌生词

Python 如何从文本中删除陌生词,python,preprocessor,Python,Preprocessor,我正在建立一个情绪分析的新项目,希望删除任何陌生人的单词、字符、电子邮件或任何带有@或任何空格的名字,清除文本中的任何噪音 input text ="@maggieNYT KFC must be out chicken. This guy itأ?آ?أ?آ?أ?آ?s losing his shit." 或 或 可以使用python中的re库来执行您要求的操作。您可以将正则表达式视为一种高级查找和替换函数 用户提供了一个正则表达式,该表达式将在中执行相关任务 …下面的正则表达式只是一个UR

我正在建立一个情绪分析的新项目,希望删除任何陌生人的单词、字符、电子邮件或任何带有@或任何空格的名字,清除文本中的任何噪音

input text ="@maggieNYT KFC must be out chicken.  This guy itأ?آ?أ?آ?أ?آ?s losing his shit."

可以使用python中的re库来执行您要求的操作。您可以将正则表达式视为一种高级查找和替换函数

用户提供了一个正则表达式,该表达式将在中执行相关任务

…下面的正则表达式只是一个URL片段,而不仅仅是http、任何标点符号、用户名或任何非字母数字字符。它还用一个空格分隔单词

以下是我的建议

''.joinre.sub@[A-Za-z0-9]+|[^0-9A-Za-z\t]\\w+:\/\/\S+,x.split 在您的示例字符串上进行测试,它似乎也适用于您的情况。这是我的密码

导入Python正则表达式库 原文:str=输入 下面这行使用@Abijit的正则表达式 已清理:str=''.joinre.sub@[A-Za-z0-9]+|[^0-9A-Za-z\t]|\w+:\/\/\S+,原始.split 印刷清洁 每一个的输出如下所示:

肯德基一定是胆小鬼,这家伙在胡闹 是的宝贝为什么必胜客晚上10点打电话给你 该团队将于明天下午2点30分至5点30分抵达现场,提供HIV STI检测和免费避孕套,以及有关准备避孕和其他性健康问题的信息和建议
input text ="‰??Aye babe. Why is Pizza hut calling you at 10 PM?‰?? "
input text ="The team will be in @KingstonLibrary tomorrow from 2:30 - 5:30pm. Providingأ?آپ#HIVأ?آپ/ #STI tests &أ?آپ#freeأ?آپcondoms, along with information & advice onأ?آپ#PrEP #contraceptionأ?آپ& otherأ?آپ#sexualhealthأ?آپissues.