如何在python中使用正则表达式删除特定单词?
我正在研究一个机器学习模型,以推荐如何在python中使用正则表达式删除特定单词?,python,regex,Python,Regex,我正在研究一个机器学习模型,以推荐工作功能,员工可以根据其职务工作。我的数据集有两个分类变量(job title,job function) 职务列的值与此类似: [“开罗高级销售代表”、“西班牙语技术支持代表”、“仅限女性电话销售专家”] 我想忽略很多词,例如“仅限”、“开罗”、“西班牙语”和“女性”” 在向算法提供数据之前,如何从数据集中删除这些单词?我试着把这些单词列成一个大列表,然后在我的职务列上迭代以检测这些单词并删除它们,但我认为这种方法会很乏味,因为我的数据集中有很多这样的单词 是
工作功能
,员工可以根据其职务
工作。我的数据集有两个分类变量(job title
,job function
)
职务
列的值与此类似:
[“开罗高级销售代表”、“西班牙语技术支持代表”、“仅限女性电话销售专家”]
我想忽略很多词,例如“仅限”、“开罗”、“西班牙语”和“女性”
”
在向算法提供数据之前,如何从数据集中删除这些单词?我试着把这些单词列成一个大列表,然后在我的职务
列上迭代以检测这些单词并删除它们,但我认为这种方法会很乏味,因为我的数据集中有很多这样的单词
是否有正则表达式技术来检测和删除这些单词?如果您想从给定文本中删除一组单词,可以这样做
baised_words = ["Spanish", "Females", "only", "Cario"]
pattern = r'''\b({})\b'''.format('|'.join(baised_words))
source_str = "...." # your source string
compiled_pattern = re.compile(pattern, re.I)
re.sub(compiled_pattern, '', source_str)
您可以查看您可以检测单词并将其替换为空字符串。e、 g re.sub(r“regex模式”,是“”)你根据什么判断这些词毫无价值?@VJAYSLN我不希望模型对某些国家或性别有偏见。我想用作业标题来概括它,用一些语法使问题更容易理解。