Categories PHP-MySQL

Bổ sung các biến thể sai chính tả đ thành dd, dđ; ô thành oo, oô; ê thành ee, eê; â thành aâ, aa

Trên một số ứng dụng như thanh tìm kiếm trình duyệt, Excel người dùng có thể gặp lỗi này thường xuyên. Do vậy tạo các thêm các biến thể sai chính tả cho một từ đúng có thể giúp chúng ta tìm các từ sai chính tả dễ dàng hơn.

Giải quyết vấn đề này khá đơn giản, chúng ta chỉ cần tách chuỗi gốc thành các chữ cái, so nó với đ, ô, ê, â rồi tạo biến thể dd, oo, ee, aa, cuối cùng ghép lại thành chuỗi mới.

Đoạn mã PHP như sau:

 // Đầu vào là từ đúng chính tả $str

function xoa_dau($str){ // xóa dấu của một ký tự hoặc chuỗi
  $dx = array("cc80","cc81","cc83","cc89","cca3"); // mã hóa dấu tiếng Việt
  $hz = bin2hex(mahoa_itdung($str)); // chuyển sang mã hex để tìm dấu
  
  $i=0;

foreach ($dx as $dy) { 
       $dz ='/'.$dy.'/';
         if (preg_match($dz, $hz)) {
           $hz = preg_replace($dz,'',$hz); // khử dấu của $hz; nó vẫn đang ở dạng hex
           $i++;
         } 
  }

  $kq = chuyen_ma_hoa(hex2bin($hz)); 

return $kq;
}

//// Biến thể Unikey ê thành ee, ô thành oo, và â thành a
    
    $bomux = xoa_dau($str);; $j=0; // khử dấu của từ gốc
    $bmmx = preg_split('//u', $bomux, -1, PREG_SPLIT_NO_EMPTY); // cắt chuỗi
    $abomux = array(); $j=0; $bomux="";
    
    
    foreach ($bmmx as $bmmx2) {
         if ($bmmx2 == "â") {$bmmx2="aa";}
         if ($bmmx2 == "ô") {$bmmx2="oo";}
         if ($bmmx2 == "ê") {$bmmx2="ee";}
         $abomux[$j] = $bmmx2; $j++;
    }

    if (count($abomux)) {
              foreach ($abomux as $bbomux) {
                  $bomux.=$bbomux;
    }}

    /////////////////////////////////////////////////////////////////////
    
    // Biến thể unikey đ thành dd
    
$ddmmx = preg_split('//u', $str, -1, PREG_SPLIT_NO_EMPTY); // cắt chuỗi
$ddcm="";
    
    
    foreach ($ddmmx as $ddmmz) {
         if ($ddmmz == "đ") {$ddmmz="dd";}
         $ddcm.=$ddmmz;
    }

   // Các biến thể oô aâ dđ eê cho từ không có dấu
       
$o2a2 = xoa_dau($str); // lấy tên ở dạng không dấu nhưng vẫn còn mũ
        
$o2a2x = preg_split('//u', $o2a2, -1, PREG_SPLIT_NO_EMPTY); // cắt chuỗi
        
$ao2a2 = array(); $j=0; // khởi tạo mảng để chứa các biến thể sai chính tả
    
    $dd=0; $oky=0;
    
    $tg = "";  
    foreach ($o2a2x as $o2a2y) {
         if ($o2a2y == "â") {
           $o2a2y="aâ"; $oky=1;
         }
         
         if ($o2a2y == "ô") {
           $o2a2y="oô"; $oky=1;
         } 

         if ($o2a2y == "ê") {
           $o2a2y="eê"; $oky=1;
         }         
         
    $tg .= $o2a2y;}
 if ($oky == 1) {$ao2a2[$j] = $tg; $j++;} // đưa biến thể vào mảng
     
 ///////////////////////    
           
         
 ////////////////////////////////
    $tg = "";     
    foreach ($o2a2x as $o2a2y) {
         if ($o2a2y == "đ") {
           $o2a2y="dđ"; $dd=1;
         }
    $tg .= $o2a2y;}
    
         if ($dd == 1) {$ao2a2[$j] = $tg; $j++;}  // đưa biến thể vào mảng 
       
    //////////////////////////////////////////////////////////////
  
 // Các biến thể oô aâ dđ eê cho từ có dấu
        
$o2a2k = preg_split('//u', $str, -1, PREG_SPLIT_NO_EMPTY); // cắt chuỗi
        
$ao2a2k = array(); $j=0; // khởi tạo mảng để chứa các biến thể sai chính tả
    
    $okq=0;;
    
    $tg = ""; 
    $maa=array("ấ","ầ","ẩ","ẫ","ạ"); 
    $moo=array("ố","ồ","ổ","ỗ","ộ"); 
    $mee=array("ế","ề","ể","ễ","ệ");
    
    foreach ($o2a2k as $o2a2q) {
         if (in_array($o2a2q, $maa)) {
           $o2a2q="a".$o2a2q; $okq=1;
         }
 
         if (in_array($o2a2q,$moo)) {
           $o2a2q="o".$o2a2q; $okq=1;
         } 
         
         if (in_array($o2a2q,$mee)) {
           $o2a2q="e".$o2a2q; $okq=1;
         }       
         
    $tg .= $o2a2q;}
 
if ($okq == 1) {$ao2a2k[$j] = $tg; $j++;} // đưa biến thể vào mảng               
         
     /////////////////////////////////

Ví dụ đầu vào là đào đoạn mã trên sẽ tạo ra các biến thể sai chính tả cho nó lần lượt là:

dđao
ddào

Còn nếu là nguyễn, thì sẽ có các biến thể sau:

nguyeên
nguyeễn
nguyeen

Tiện thể dưới đây là danh sách các biến thể sai chính tả của khoảng 300 họ phổ biến ở Việt Nam:


Back to Top