Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/wcf/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在python中使用正则表达式删除特定单词?_Python_Regex - Fatal编程技术网

如何在python中使用正则表达式删除特定单词?

如何在python中使用正则表达式删除特定单词?,python,regex,Python,Regex,我正在研究一个机器学习模型,以推荐工作功能,员工可以根据其职务工作。我的数据集有两个分类变量(job title,job function) 职务列的值与此类似: [“开罗高级销售代表”、“西班牙语技术支持代表”、“仅限女性电话销售专家”] 我想忽略很多词,例如“仅限”、“开罗”、“西班牙语”和“女性”” 在向算法提供数据之前,如何从数据集中删除这些单词?我试着把这些单词列成一个大列表,然后在我的职务列上迭代以检测这些单词并删除它们,但我认为这种方法会很乏味,因为我的数据集中有很多这样的单词 是

我正在研究一个机器学习模型,以推荐
工作功能
,员工可以根据其
职务
工作。我的数据集有两个分类变量(
job title
job function

职务
列的值与此类似: [“开罗高级销售代表”、“西班牙语技术支持代表”、“仅限女性电话销售专家”]

我想忽略很多词,例如“
仅限”、“
开罗”、“
西班牙语”和“
女性”

在向算法提供数据之前,如何从数据集中删除这些单词?我试着把这些单词列成一个大列表,然后在我的
职务
列上迭代以检测这些单词并删除它们,但我认为这种方法会很乏味,因为我的数据集中有很多这样的单词


是否有正则表达式技术来检测和删除这些单词?

如果您想从给定文本中删除一组单词,可以这样做

baised_words = ["Spanish", "Females", "only", "Cario"]
pattern = r'''\b({})\b'''.format('|'.join(baised_words))
source_str = "...." # your source string
compiled_pattern = re.compile(pattern, re.I)
re.sub(compiled_pattern, '', source_str)

您可以查看

您可以检测单词并将其替换为空字符串。e、 g re.sub(r“regex模式”,是“”)你根据什么判断这些词毫无价值?@VJAYSLN我不希望模型对某些国家或性别有偏见。我想用作业标题来概括它,用一些语法使问题更容易理解。