如何用Python实现多种敏感词过滤方法?

2026-04-16 11:432阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计2177个文字,预计阅读时间需要9分钟。

如何用Python实现多种敏感词过滤方法?

在我们生活中,一些不恰当的敏感词经常出现。我们常用*去屏蔽*来代替,例如:**卑鄙,*去屏蔽*。一些侮辱性词汇和政冶敏感词汇都不应出现在公共场合。这时,*去屏蔽*就派上用场了。

在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中,这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。

(我已经尽量把脏话做成图片的形式了,要不然文章发不出去)

方法一:replace过滤

replace就是最简单的字符串替换,当一串字符串中有可能会出现的敏感词时,我们直接使用相应的replace方法用*替换出敏感词即可。

缺点:

文本和敏感词少的时候还可以,多的时候效率就比较差了

import datetime now = datetime.datetime.now() print(filter_sentence, " | ", now)

如果是多个敏感词可以用列表进行逐一替换

for i in dirty: speak = speak.replace(i, '*') print(speak, " | ", now)

方法二:正则表达式过滤

正则表达式算是一个不错的匹配方法了,日常的查询中,机会都会用到正则表达式,包括我们的爬虫,也都是经常会使用到正则表达式的,在这里我们主要是使用“|”来进行匹配,“|”的意思是从多个目标字符串中选择一个进行匹配。

阅读全文

本文共计2177个文字,预计阅读时间需要9分钟。

如何用Python实现多种敏感词过滤方法?

在我们生活中,一些不恰当的敏感词经常出现。我们常用*去屏蔽*来代替,例如:**卑鄙,*去屏蔽*。一些侮辱性词汇和政冶敏感词汇都不应出现在公共场合。这时,*去屏蔽*就派上用场了。

在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词都不应该出现在一些公共场合中,这个时候我们就需要一定的手段去屏蔽这些敏感词。下面我来介绍一些简单版本的敏感词屏蔽的方法。

(我已经尽量把脏话做成图片的形式了,要不然文章发不出去)

方法一:replace过滤

replace就是最简单的字符串替换,当一串字符串中有可能会出现的敏感词时,我们直接使用相应的replace方法用*替换出敏感词即可。

缺点:

文本和敏感词少的时候还可以,多的时候效率就比较差了

import datetime now = datetime.datetime.now() print(filter_sentence, " | ", now)

如果是多个敏感词可以用列表进行逐一替换

for i in dirty: speak = speak.replace(i, '*') print(speak, " | ", now)

方法二:正则表达式过滤

正则表达式算是一个不错的匹配方法了,日常的查询中,机会都会用到正则表达式,包括我们的爬虫,也都是经常会使用到正则表达式的,在这里我们主要是使用“|”来进行匹配,“|”的意思是从多个目标字符串中选择一个进行匹配。

阅读全文