Các hàm PHP dùng để tách họ tên người tiếng Việt (v1.2)

Đây là các hàm PHP tôi thường sử dụng để thao tác với họ tên người tiếng Việt. Tiền tố vnn trong tên hàm là viết tắt cho từ vietnamese names. Các function trong file dưới đây là độc lập, nó không cần require đến file .php khác để hoạt động. Khi thao tác file này yêu cầu ngoài bản thân nó, còn có require đến file xử lý chuỗi tiếng Việt để chạy. Mã tổng hợp (phần giải thích cho từng function có ở phần sau mã tổng hợp): 1. Đếm số lượng từ trong tên Loại bỏ khoảng …

Đọc thêm

Các mảng PHP cơ bản cho nguyên âm và phụ âm trong tiếng Việt (v1.2)

Khi tôi định viết lại các hàm tách từ tiếng Việt dính trong tên người (ví dụ nguyễn đứcanh), và hàm sửa thả dấu tiếng Việt trong tên người (ví dụ ngũyên đức anh), tôi bỗng nhận ra sự thiếu các mảng tiêu chuẩn phản ánh các đặc điểm của chữ viết tiếng Việt làm cho kết quả giảm độ chính xác. Vậy nên hôm nay tôi sẽ cập nhật các mảng này, chủ yếu là nhờ tìm hiểu thêm một số kiến thức căn bản về nguyên âm và phụ âm trong tiếng Việt. (PS: vì kiến thức ngôn …

Đọc thêm

Hàm preg_replace trong PHP

Đây là một trong các hàm preg được sử dụng nhiều khi thao tác chuỗi trong PHP. Nó có nhiệm vụ thay thế một phần trong một chuỗi đầu vào bằng một chuỗi con khác. Chúng ta sẽ đi vào ví dụ cho dễ hiểu. Ở đây bạn thấy là mẫu $pattern được thay thế bằng chuỗi mong muốn ‘hoàng’ trong chuỗi lớn đầu vào $str. Trong trướng hợp mẫu $pattern không có trong chuỗi lớn $str, không có thay đổi nào xảy ra cả. Ví dụ: Cú pháp tiêu chuẩn của hàm preg_replace Giải thích các tham số Các …

Đọc thêm

Hàm preg_split trong PHP

Hàm preg_split dùng để cắt chuỗi dựa trên mẫu phân cách mà bạn muốn. Ví dụ sẽ làm bạn sẽ hiểu hơn nhiều. Ví dụ 1, phân tách từ dựa trên khoảng trắng giữa chúng (mẫu phân cách): Kết quả: Một mảng gồm 3 phần tử, chứa các từ không tên. Ví dụ 2, tôi tham khảo luôn từ W3Schools: Kết quả: Bạn có thể thấy mẫu phân cách bao gồm 3 ký tự, hoặc là – hoặc khoảng trắng và cuối cùng là dấu : Cú pháp tiêu chuẩn của hàm preg_split Cú pháp: Giải thích các tham số: …

Đọc thêm

Hàm preg_grep trong PHP

Hàm preg_grep sẽ trả về một mảng bao gồm các phần tử có chứa chuỗi cần tìm kiếm. Ví dụ 1: Sẽ cho ra kết quả thế này: Tức là một mảng bao gồm các phần tử chứa $pt. Nếu chúng ta thêm PREG_GREP_INVERT vào thì nó sẽ trả về các phần tử KHÔNG khớp với mẫu cần đối sánh. Ví dụ 2: Kết quả:

Hàm preg_match trong PHP

Các hàm này tận dụng sức mạnh của biểu thức chính quy (regex), và giúp chúng ta thực hiện được nhiều nhiệm vụ khá nhanh gọn. Số lượng hàm preg không nhiều, hôm nay chúng ta sẽ tìm hiểu từng hàm một. Đầu tiên là preg_match preg_match Biểu thức đơn giản: Dùng để tìm mẫu $pattern có trong chuỗi $str hay không. Kết quả 1 là có, còn 0 nghĩa là không tìm thấy. Ví dụ 1: Ví dụ 2: Chúng ta lưu ý là mẫu so sánh cần phải đặt trong dấu / / nếu không là sẽ báo …

Đọc thêm

Các hàm PHP dùng để kiểm tra dữ liệu ngày tháng năm sinh người (v1.2)

Trong bài viết này tôi sẽ trình bày với các bạn cách kiểm tra, chuẩn hóa dữ liệu ngày tháng năm sinh ở người trong một tệp dữ liệu lớn. Một số lưu ý: Định dạng chuẩn mà chúng ta hướng đến là cấu trúc dd/mm/yyyy, ví dụ như 05/10/2008. Cấu trúc này yêu cầu ngày là dạng 2 số, nếu dưới 10 thì số 0 phải được bổ sung; tháng cũng là dạng 2 số, nếu dưới 10 thì số 0 cũng phải được bổ sung vào. Năm là dạng 4 số, ví dụ 1998, 2003. Nếu năm là …

Đọc thêm

Các hàm PHP chuyển đổi ký tự tiếng Việt từ dạng mã hex ít phổ biến về dạng phổ biến và ngược lại (v1.2)

Bản này tôi cập nhật thêm việc chuyển đổi cả ký tự viết hoa nữa. Bốn hàm bao gồm: pop_hex_convert($str): chuyển chuỗi tiếng Việt ở dạng mã hóa hex không phổ biến sang dạng phổ biến, chuyển nó thành chuỗi ký tự viết thường. Đầu vào có thể là chuỗi viết hoa, viết thường hay cả hai, đầu ra chỉ bao gồm các ký tự viết thường; rarely_hex_convert($str): chuyển chuỗi tiếng Việt ở dạng mã hóa hex phổ biến về dạng không phổ biến, chuyển nó thành chuỗi ký tự viết thường. Đầu vào có thể là chuỗi viết hoa, …

Đọc thêm

Thử tìm hiểu mấy hàm có tiền tố mb (multibyte string) trong PHP giúp xử lý chuỗi tiếng Việt tốt hơn [phần 1]

Chế lại bánh xe là dở hơi, mất công, và kém hiệu quả. Ý tôi là việc viết các hàm mà PHP có thể có sẵn. Để dự phòng trường hợp đó, hôm nay tôi sẽ thử tìm hiểu mấy hàm xử lý chuỗi của PHP có hỗ trợ tiếng Việt cũng như hầu hết các ngôn ngữ không phải phương Tây khác. Hàm mb_substr Hàm này dùng để cắt chuỗi. Cấu trúc của nó như sau: $string là chuỗi đầu vào; int $start chỉ vị trí bắt đầu mà bạn muốn cắt. Nó cần là số nguyên, và là …

Đọc thêm