PHP 实现敏感词 / 停止词 过滤(附敏感词库)

[复制链接]
查看2334 | 回复0 | 2021-3-11 10:59 | 显示全部楼层 |阅读模式
  1. 敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。在实现敏感词过滤的算法中,我们必须要减少运算,而 DFA 在 DFA 算法中几乎没有什么计算,有的只是状态的转换。所以想更高效的进行敏感词的过滤,需要使用 DFA 算法。
复制代码
整理过滤函数代码如下:
  1. /**
  2. * Notes: [DoFilterWords 过滤字符中敏感词]
  3. * Author HeZe
  4. * Date 2021/1/6 14:48
  5. * @param $list     过滤词一维数组  ['小明', '小红', '大白', '小白', '小黑', 'me', 'you'];
  6. * @param $string   输入文字       likeyou小白喜欢小黑爱着的大黄
  7. * @return string   过滤后文字     like**喜欢*爱着的大黄
  8. */
  9. function DoFilterWords($list, $string, $symbol = '*')
  10. {
  11.     $count = 0;             // 违规词的个数
  12.     $sensitiveWord = '';    // 违规词
  13.     $stringAfter = $string;      // 替换后的内容
  14.     $pattern = "/".implode("|",$list)."/i"; // 定义正则表达式

  15.     if(preg_match_all($pattern, $string, $matches)) { // 匹配到了结果
  16.         $patternList = $matches[0];     // 匹配到的数组
  17.         $count = count($patternList);
  18.         $sensitiveWord = implode(',', $patternList);    // 敏感词数组转字符串
  19.         //把匹配到的数组进行合并,替换使用
  20.         $replaceArray = array_combine($patternList,array_fill(0, count($patternList), $symbol));
  21.         $stringAfter = strtr($string, $replaceArray); //结果替换
  22.     }

  23.     $log = "原句为 [ {$string} ]<br/>";

  24.     if($count==0) {
  25.         $log .= "暂未匹配到敏感词!";
  26.     } else {
  27.         $log .= "匹配到 [ {$count} ]个敏感词:[ {$sensitiveWord} ]<br/>"."替换后为:[ {$stringAfter} ]";
  28.     }

  29.     return $log;
  30. }
复制代码
使用方法
  1. // 过滤词库
  2. $list = ['小明', '小红', '大白', '小白', '小黑', 'me', 'you'];

  3. // 输入文字
  4. $string = "likeyou小白喜欢小黑爱着的大黄";

  5. // 调用函数
  6. $res = DoFilterWords($list , $string , '*');
  7. echo $res;

  8. // 输出结果
  9. 原句为 [ likeyou小白喜欢小黑爱着的大黄 ]
  10. 匹配到 [ 3 ]个敏感词:[ you,小白,小黑 ]
  11. 替换后为:[ like**喜欢*爱着的大黄 ]
复制代码


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

UID
434
贡献
3
丢币
0
主题
59
回帖
0
注册时间
2021-2-21
最后登录
2021-12-28