Categories PHP-MySQL

Các mảng (array) trong PHP để tiện làm việc với tiếng Việt và họ tên người

Đây là các mảng tôi thường dùng để kiểm tra họ tên người. Lưu lại ở đây để nếu bạn nào cần có thể dùng luôn.

Hiện đã có các bản nâng cấp cho nội dung này:


Các ký tự tiếng Việt viết thường (không có f, j, w, z):

Dạng viết liền để dùng trong Regex:

Mã hóa thường dùng

aáàảãạăắằẳẵặâấầẩẫậeéèẻẽẹêếềểễệoóòỏõọôốồổỗộơờớởỡợuúùủũụưứừửữựyýỳỷỹỵiíìỉĩịđbcdghklmnpqrstvx

// các từ có dấu thanh

$tvtd=array("á","à","ả","ã","ạ","ắ","ằ","ẳ","ẵ","ặ","ấ","ầ","ẩ","ẫ","ậ","é","è","ẻ","ẽ","ẹ","ế","ề","ể","ễ","ệ","ó","ò","ỏ","õ","ọ","ố","ồ","ổ","ỗ","ộ","ờ","ớ","ở","ỡ","ợ","ú","ù","ủ","ũ","ụ","ứ","ừ","ử","ữ","ự","ý","ỳ","ỷ","ỹ","ỵ","í","ì","ỉ","ĩ","ị");


// các nguyên âm không dấu

$tkd=array("a","â","e","ê","u","ư","o","ô","ơ","i","y");


---------------------


Mã hóa ít dùng

aáàảãạăắằẳẵặâấầẩẫậeéèẻẽẹêếềểễệoóòỏõọôốồổỗộơờớởỡợuúùủũụưứừửữựyýỳỷỹỵiíìỉĩịđbcdghklmnpqrstvx

Dấu thanh (sắc, huyền, hỏi, ngã, nặng) / bên dưới không có dấu nặng vì tôi không thể copy vào được.

̀
́
̃
̉
Mã hex của dấu thanh

Sắc: cc81
Huyền: cc80
Hỏi: cc89
Ngã: cc83
Nặng: cca3

$dau=array("cc81","cc80","cc89","cc83","cca3");
---

// Mảng để dùng trong PHP

Mã hóa thường dùng

$tvtd=array("a","á","à","ả","ã","ạ","ă","ắ","ằ","ẳ","ẵ","ặ","â","ấ","ầ","ẩ","ẫ","ậ","e","é","è","ẻ","ẽ","ẹ","ê","ế","ề","ể","ễ","ệ","o","ó","ò","ỏ","õ","ọ","ô","ố","ồ","ổ","ỗ","ộ","ơ","ờ","ớ","ở","ỡ","ợ","u","ú","ù","ủ","ũ","ụ","ư","ứ","ừ","ử","ữ","ự","y","ý","ỳ","ỷ","ỹ","ỵ","i","í","ì","ỉ","ĩ","ị","đ","b","c","d","g","h","k","l","m","n","p","q","r","s","t","v","x");

---

Mã hóa ít dùng

$tvid=array("a","á","à","ả","ã","ạ","ă","ắ","ằ","ẳ","ẵ","ặ","â","ấ","ầ","ẩ","ẫ","ậ","e","é","è","ẻ","ẽ","ẹ","ê","ế","ề","ể","ễ","ệ","o","ó","ò","ỏ","õ","ọ","ô","ố","ồ","ổ","ỗ","ộ","ơ","ờ","ớ","ở","ỡ","ợ","u","ú","ù","ủ","ũ","ụ","ư","ứ","ừ","ử","ữ","ự","y","ý","ỳ","ỷ","ỹ","ỵ","i","í","ì","ỉ","ĩ","ị","đ","b","c","d","g","h","k","l","m","n","p","q","r","s","t","v","x");

Có cả f, j, w, z:

Bảng chữ cái đầy đủ

Mã hóa thường dùng

aáàảãạăắằẳẵặâấầẩẫậeéèẻẽẹêếềểễệoóòỏõọôốồổỗộơờớởỡợuúùủũụưứừửữựyýỳỷỹỵiíìỉĩịđbcdghklmnpqrstvxfjwz

$tvtd=array("a","á","à","ả","ã","ạ","ă","ắ","ằ","ẳ","ẵ","ặ","â","ấ","ầ","ẩ","ẫ","ậ","e","é","è","ẻ","ẽ","ẹ","ê","ế","ề","ể","ễ","ệ","o","ó","ò","ỏ","õ","ọ","ô","ố","ồ","ổ","ỗ","ộ","ơ","ờ","ớ","ở","ỡ","ợ","u","ú","ù","ủ","ũ","ụ","ư","ứ","ừ","ử","ữ","ự","y","ý","ỳ","ỷ","ỹ","ỵ","i","í","ì","ỉ","ĩ","ị","đ","b","c","d","g","h","k","l","m","n","p","q","r","s","t","v","x","f","j","w","z");

Theo vần:

Mã hóa thường dùng

$a=array("a","á","à","ả","ã","ạ","ă","ắ","ằ","ẳ","ẵ","ặ","â","ấ","ầ","ẩ","ẫ","ậ");

$e=array("e","é","è","ẻ","ẽ","ẹ","ê","ế","ề","ể","ễ","ệ");

$o=array("o","ó","ò","ỏ","õ","ọ","ô","ố","ồ","ổ","ỗ","ộ","ơ","ờ","ớ","ở","ỡ","ợ");

$u=array("u","ú","ù","ủ","ũ","ụ","ư","ứ","ừ","ử","ữ","ự");

$y=array("y","ý","ỳ","ỷ","ỹ","ỵ");

$i=array("i","í","ì","ỉ","ĩ","ị");

$k=array("đ","b","c","d","g","h","k","l","m","n","p","q","r","s","t","v","x");

$nn=array("f","j","w","z"); // các ký tự không có trong TV

$abc = array_merge($a,$e,$o,$u,$y,$i,$k,$nn); // dùng để gộp các mảng lại

Theo dấu:

Regex (mã hóa thường dùng):

áàảãạắằẳẵặấầẩẫậ

éèẻẽẹếềểễệ

óòỏõọốồổỗộờớởỡợ

úùủũụứừửữự

ýỳỷỹỵ

íìỉĩị

aăâeêoôơuưiy

bcdđghiklmnpqrstvx

---

PHP:

$ad=array("á","à","ả","ã","ạ","ắ","ằ","ẳ","ẵ","ặ","ấ","ầ","ẩ","ẫ","ậ");

$ed=array("é","è","ẻ","ẽ","ẹ","ế","ề","ể","ễ","ệ");

$od=array("ó","ò","ỏ","õ","ọ","ố","ồ","ổ","ỗ","ộ","ờ","ớ","ở","ỡ","ợ");

$ud=array("ú","ù","ủ","ũ","ụ","ứ","ừ","ử","ữ","ự");

$yd=array("ý","ỳ","ỷ","ỹ","ỵ");

$id=array("í","ì","ỉ","ĩ","ị");

$kd=array("a","b","c","d","đ","e","g","h","i","k","l","m","n","o","p","q","r","s","t","u","v","x","y");

$sac=array("á","é","ó","ú","ý","í");

$huyen=array("à","è","ò","ù","ỳ","ì");

$hoi=array("ả","ẻ","ỏ","ủ","ỷ","ỉ");

$nga=array("ã","ẽ","õ","ũ","ỹ","ĩ");

$nang=array("ạ","ẹ","ọ","ụ","ỵ","ị");

Hàm để chuyển chữ cái dạng mã hóa ít dùng về dạng phổ thông (ví dụ mã hóa phổ thông của e1bbb3, còn ít dùng của 79cc80):

function chuyen_ma_hoa($str) {    
$phothong = array();  // tạo mảng chữ cái mã hóa phổ biến
$itdung = array();  //tạo mảng chữ cái mã hóa ít dùng

// Vần y (còn ở cuối)

$phothong[0]='ỵ';
$itdung[0]='ỵ';

// Vần a

$phothong[1]='á';
$itdung[1]='á';

$phothong[2]='à';
$itdung[2]='à';

$phothong[3]='ả';
$itdung[3]='ả';

$phothong[4]='ã';
$itdung[4]='ã';

$phothong[5]='ạ';
$itdung[5]='ạ';

// ///////////////////////////

// Vần ă 

$phothong[6]='ắ';
$itdung[6]='ắ';

$phothong[7]='ằ';
$itdung[7]='ằ';

$phothong[8]='ẳ';
$itdung[8]='ẳ';

$phothong[9]='ẵ';
$itdung[9]='ẵ';

$phothong[10]='ặ';
$itdung[10]='ặ';

/////////////////////////////

// Vần â 

$phothong[11]='ầ';
$itdung[11]='ầ';

$phothong[12]='ấ';
$itdung[12]='ấ';

$phothong[13]='ậ';
$itdung[13]='ậ';

$phothong[14]='ẩ';
$itdung[14]='ẩ';

$phothong[15]='ẫ';
$itdung[15]='ẫ';


/////////////////////

// Vần e 

$phothong[16]='é';
$itdung[16]='é';

$phothong[17]='è';
$itdung[17]='è';

$phothong[18]='ẻ';
$itdung[18]='ẻ';

$phothong[19]='ẽ';
$itdung[19]='ẽ';

$phothong[20]='ẹ';
$itdung[20]='ẹ';


// ////////////////////////

// Vần ê 

$phothong[21]='ế';
$itdung[21]='ế';

$phothong[22]='ề';
$itdung[22]='ề';

$phothong[23]='ể';
$itdung[23]='ể';

$phothong[24]='ễ';
$itdung[24]='ễ';

$phothong[25]='ệ';
$itdung[25]='ệ';


// //////////////////////

// Vần o 

$phothong[26]='ó';
$itdung[26]='ó';

$phothong[27]='ò';
$itdung[27]='ò';

$phothong[28]='ỏ';
$itdung[28]='ỏ';

$phothong[29]='õ';
$itdung[29]='õ';

$phothong[30]='ọ';
$itdung[30]='ọ';

// ////////////////

// Vần ô 

$phothong[31]='ố';
$itdung[31]='ố';

$phothong[32]='ồ';
$itdung[32]='ồ';

$phothong[33]='ổ';
$itdung[33]='ổ';

$phothong[34]='ỗ';
$itdung[34]='ỗ';

$phothong[35]='ộ';
$itdung[35]='ộ';

// //////////////////////

// Vần ơ

$phothong[36]='ớ';
$itdung[36]='ớ';

$phothong[37]='ờ';
$itdung[37]='ờ';

$phothong[38]='ở';
$itdung[38]='ở';

$phothong[39]='ỡ';
$itdung[39]='ỡ';

$phothong[40]='ợ';
$itdung[40]='ợ';

// ////////////////////

// Vần i 

$phothong[41]='í';
$itdung[41]='í';

$phothong[42]='ì';
$itdung[42]='ì';

$phothong[43]='ỉ';
$itdung[43]='ỉ';

$phothong[44]='ĩ';
$itdung[44]='ĩ';

$phothong[45]='ị';
$itdung[45]='ị';

// // //////////////////

// Vần u 

$phothong[46]='ú';
$itdung[46]='ú';

$phothong[47]='ù';
$itdung[47]='ù';

$phothong[48]='ủ';
$itdung[48]='ủ';

$phothong[49]='ũ';
$itdung[49]='ũ';

$phothong[50]='ụ';
$itdung[50]='ụ';

// ///////////////

// // Vần ư

$phothong[51]='ứ';
$itdung[51]='ứ';

$phothong[52]='ừ';
$itdung[52]='ừ';

$phothong[53]='ử';
$itdung[53]='ử';

$phothong[54]='ữ';
$itdung[54]='ữ';

$phothong[55]='ự';
$itdung[55]='ự';

// ////////////////////

// Vần y 

$phothong[56]='ý';
$itdung[56]='ý';

$phothong[57]='ỳ';
$itdung[57]='ỳ';

$phothong[58]='ỷ';
$itdung[58]='ỷ';

$phothong[59]='ỹ';
$itdung[59]='ỹ';

// ////////////////////


for ($d=0;$d<60;$d++) {
    $str = str_replace($itdung[$d], $phothong[$d], $str);
}
return $str;
}

Các họ phổ biến của người Châu Á, dùng để lọc tên người có yếu tốt nước ngoài (các họ nước ngoài mà có ký tự giống với họ tiếng Việt thì tôi không đưa vào đây, trừ họ Trung Quốc dạng tiếng Việt thì vẫn giữ lại).

Dữ liệu tham khảo từ trang Bách khoa người dùng phương Đông (bongdentoiac).

// họ phổ biến người Hàn Quốc, gồm 50 họ
$ho_korea=array("gim","geum","i","ri","park","bak","choe","jeong","gang","jo","jun","jang","im","rim","han","o","seo","sin","gwon","hwang","song","yu","ryu","jeon","hong","go","mun","yang","son","bae","jo","baek","heo","yu","ryu","nam","sim","no","ro","jeong","ha","gwak","seong","cha","ju","gu","sin","im","na","ra","jeon","min","yu","jin","ji","enom","u");

// họ phổ biến người Nhật Bản, gồm 50 họ
$ho_japan=array("sato","suzuki","takahashi","tanaka","watanabe","ito","nakamura","kobayashi","yamamoto","kato","yoshida","yamada","matsumoto","sasak","ymaguchi","matsumoto","inoue","kimura","shimizu","hayashi","saito","yamazaki","yamasaki","nakajima","mori","abe","ikeda","hashimoto","ishikawa","yamashita","ishii","hasegawa","okada","goto","kondo","meada","fujita","endo","aoki","sakamoto","ota","kaneko","fujii","fukuda","nishimura","takeuchi","nakagawa","okamoto","murakami","miura");

// họ phổ biến ở Sing
$ho_sing = array("tan","lim","lee","ong","wong","goh","chua","chan","koh","teo","ang","yeo","tay","low","toh","sim","chong","chia");


// họ phổ biến người Trung Quốc, phiên âm quốc tế, gồm 100 họ 
// tôi không thích đặt tên biến có số 1 trong tên vì trên mã nó rất khó nhìn

$ho_china2=array("wang","zhang","chen","yang","huang","zhao","wu","zhou","xu","sun","zhu","hu","guo","he","lin","gao","luo","zheng","liang","xie","song","tang","deng","feng","peng","zeng","xiao","tian","dong","pan","yuan","jiang","yu","wei","ding","ren","ye","ren","lu");

$ho_china3=array("yao","shen","zhong","jiang","cui","tan","wang","fan","liao","shi","jin","wei","jia","xia","fu","fang","zou","xiong","bai","meng","qin","qiu","hou","jiang","yin","xue","yan","shi","he","gu","gong","shao","tan","qian","dai","kong","xiang");

// họ tiếng Việt của người Trung Quốc, gồm 100 họ + các họ người Trung tìm thấy ở VN

// họ tiếng Việt của người Trung Quốc, gồm 100 họ + các họ người Trung tìm thấy ở VN

$ho_trungquoc2=array("lưu","triệu","chu","từ","tôn","mã","chu","la","lương","đường","hàn","tào","bành","tiêu","điền","đổng","viên","sái","tưởng","dư","vu","diệp","trình","ngụy","lữ","lã","nhâm","nhậm","lư","lô");

$ho_trungquoc3=array("ôn","diêu","thẩm","chung","khương","thôi","đàm","lục","uông","liêu","thạch","kim","vi","giả","hạ","phó","phương","trâu","hùng","bạch","mạnh","tần","khâu","hầu","giang","doãn","tiết","diêm","lôi","long","sử","hạ","mao","hác","cố","cung","thiệu","tiền","đái","đới","nghiêm","mạc","khổng","hướng","thường","thang");
        
// các họ Trung Quốc phổ biến cả ở VN và TQ
$ho_tqvn=array("trần","lê","phạm","võ","phan","trương","đặng","đỗ","ngô","vũ","hồ","hoàng","dương","đinh","đoàn","lâm","trịnh","đào","cao","lý","hà","lưu","lương","thái","tạ","tô","phùng","vương","quách","tống","hứa","tăng");

Các họ thường dùng ở Việt Nam:

// họ tên việt bản đầy đủ, xếp theo vần abc
$hotenviet = array("a","ái","an","ân","âu","âu dương","ba","bá","bạc","bách","bạch","ban","bàn","bàng","bành","bảo","bế","bì","biện","bình","bồ","bốc","ca","cai","cái","cam","cảm","can","càng","cảnh","cao","cáo","cáp","cát","cầm","cấn","cần","cẩn","chàng","châu","chế","chiêm","chim","chu","bông","bùi","bửu","chúc","chuyên","chung","chúng","chử","chương","cô","cồ","cổ","cốc","công","cống","cù","cung","cự","dã","danh","dao","di","dì","dịch","dịp","diệp","doãn","dụ","dụng","dư","dương","ða","đái","đan","đàng","đào","đạo","đăng","đặng","đầu","đậu","đèo","điền","điêu","điều","điểu","đinh","đình","định","đoàn","đồ","đỗ","đổ","đôn","đông","đống","đồng","đổng","đới","đơn","đức","đường","giang","giàng","giao","giáp","gương","hà","hạ","hán","hàn","hàng","hạng","hào","hảo","hâm","hầu","hê","hi","hình","hò","hoa","hoà","hoàng","hoàng phủ","hoắc","học","hồ","hồng","hui","hung","hùng","huy","huỳnh","hứa","hướng","ích","kem","kha","khả","khâm","khâu","kheo","khiếu","khoáng","khổng","khu","khuất","khúc","khương","khưu","kiêm","kiện","kiều","kiểu","kiệu","kim","la","lã","lạc","lai","lãi","lại","lang","lãnh","lao","lâm","lầu","lê","lều","lịch","liêm","liên","liêng","liêu","liễu","linh","liu","lò","long","lô","lỗ","lộ","lộc","lù","luận","lục","luyện","lư","lữ","lương","lường","lưu","lý","ma","mã","mạc","mạch","mai","mạnh","mang","mẫn","mâu","mầu","mè","mỗ","mộc","mùi","mục","nại","năng","ngạc","ngân","nghê","nghiêm","ngọ","ngọc","ngô","ngũ","ngụy","nguyễn","ngưu","nham","nhan","nhâm","nhậm","nhân","nhất","nhiêu","nhữ","ninh","nịnh","nông","nùng","on","ong","ô","ông","phác","phạm","phan","phí","phó","phú","phù","phúc","phùng","phước","phương","phượng","quách","quán","quản","quang","quàng","quảng","quế","quyền","sái","sâm","sầm","sẩm","sĩ","soái","sơn","sùng","sử","tà","tạ","tán","tào","tạo","tăng","tân","tần","tập","tất","tẩy","tề","thạc","thạch","thái","thái thúc","thao","thào","thảo","thang","thanh","thành","thăng","thẩm","thân","thập","thế","thềm","thi","thiết","thiệt","thiều","thiệu","thịnh","thôi","thới","thời","thuận","thục","thuỷ","ti","tỉ","tiên","tiết","tiêu","tiếu","tinh","toán","toàn","tòng","tô","tôn","tôn nữ","tôn thất","tông","tống","trà","trác","trang","tráng","trảo","trát","trầm","trần","tri","triển","triệu","trình","trịnh","trừ","trưng","trương","trượng","tu","tuân","tuấn","tùng","tư","từ","tự","tưởng","tượng","uất","uông","ung","ức","ưng","ứng","và","vạn","vàng","vãng","văn","vi","viêm","viên","việt","võ","vòng","vọng","vù","vũ","vương","vưu","xa","xuân","y","bờ","cà","chan","chang","chanh","chao","chảo","chau","chẩu","chữ","cu","dòng","hờ","hù","khoang","khoàng","lành","làu","lẩu","lèo","lềm","lì","liềng","lìu","lo","lồ","lu","lui","lùng","luồng","lừ","lừu","măng","mấu","mùa","mùng","nhà","núi","pản","phùn","pờ","pơ loong","pùa","quãng","rô","sần","sẻn","sển","sình","tẩn","thàng","thèn","thền","thòng","vang","văng","vì","viêng","voòng","vùi","vừ","ama","ayun","buôn krông","chamalé","cill","cút","eban","enuol","h’đók","h’mók","kasim","kpă","krazan","ksor","liêng hót","moong","nay","néang","niê siêng","nôi","nơ trang","phồng","pi năng","ploong","puih","ra lan","rmah","rơ chơm","rơ lan","rờ ô","say","se","siu","so","vạng","xeo","ya","yang","y thăng");

Tiếp đến là mảng từ đơn tiếng Việt, có thể được dùng để kiểm tra chính tả. Dữ liệu được tham khảo từ trang lượm.tv


"xuýt","xuỵt");
Back to Top