Tập chơi với cú pháp cơ bản của RegEx

RegEx viết đầy đủ là Regular Expression, tên tiếng Việt là biểu thức chính quy. Ưu điểm lớn nhất của RegEx: nó giúp chúng ta đỡ phải nghĩ những dòng mã cồng kềnh, vì RegEx có khả năng xử lý chuỗi rất mạnh. RegEx cũng được nhiều ngôn ngữ lập trình, ứng dụng hỗ trợ. PHP và SQL cũng hỗ trợ RegEx rất tốt. Mới đầu bạn nhìn cấu trúc của RegEx sẽ rất là ngao ngán, chẳng hạn đây là cú pháp bắt chuỗi ngày tháng năm tiêu chuẩn: Cái gì đây? Sao nhiều dấu \ rồi /, [, …

Đọc thêm

Kiểm tra họ tên hợp chuẩn nhanh hơn với RegEx

Tôi có viết bài về việc xử lý họ tên bằng PHP trước đây, dù các đoạn mã đó cũng thú vị thì với RegEx vấn đề phát hiện lỗi được xử lý nhanh hơn đáng kể. Tuy nhiên chúng ta cần lưu ý là cú pháp của RegEx chưa tính đến các ngôn ngữ quốc tế, nên cú pháp viết gọn [a-z] để đại diện cho các ký tự từ a đến z không có cái tương ứng trong tiếng Việt (ư, á, ô, ờ, v.v..). Do vậy chúng ta cần bổ sung thủ công vào. Code mẫu sẽ …

Đọc thêm

Lọ mọ viết cái mã chuẩn hóa ngày tháng năm đến khổ, hóa ra dùng một dòng Regular Expression là xong!

Vào đề luôn anh chị em ạ, nó là cái dòng này: Xử lý tuốt chỉ nhờ một dòng trên mà thôi, nó sẽ bắt đủ các dạng ngày tháng năm thường dùng: 2 ký tự đầu bắt buộc là số, 2 ký tự tiếp cũng bắt buộc là số, các ký tự năm có thể là 2 số hoặc 4 số; không cho phép chữ cái, ký tự đặc biết trong chuỗi. Chỉ có số mà thôi; ngày, tháng năm có thể được phân cách bằng / hoặc – hoặc dấu . 2 ký tự đầu có thể là …

Đọc thêm

Đồng bộ mã hóa tiếng Việt có dấu là điều phải làm để có được kết quả thống kê chính xác

Phiên bản nâng cấp của bộ chuyển đổi mã hex tiếng Việt đã có ở bài viết này: Các hàm PHP chuyển đổi ký tự tiếng Việt từ dạng mã hex ít phổ biến về dạng phổ biến và ngược lại (v1.2) Trong bài viết trước, tôi có nói về bộ chuyển mã hóa tiếng Việt để nó có bộ mã hóa UTF-8 đồng nhất, đây chính là hàm xử lý việc đó: Đoạn mã này sẽ chuyển các ký tự tiếng Việt có dấu (sắc, huyền, hỏi, ngã, nặng) đang được mã hóa ở dạng không phổ thông về …

Đọc thêm

Xử lý dữ liệu họ tên sai lệch như thế nào trong hệ thống database lớn?

Đối với dữ liệu lớn, thu từ nhiều nguồn, tôi phát hiện ra là việc xử lý đồng bộ định dạng và sửa lỗi cực kỳ quan trọng và có thể tốn thời gian không kém việc phân tích chính thức sau này. Xử lý dữ liệu sai lệch là điều bắt buộc cần phải làm vì nếu không kết quả phân tích được xem là vô nghĩa vì không thể tin cậy được (ít nhất ở khía cạnh không ước tính được độ sai lệch dữ liệu). Trước khi xử lý dữ liệu sai lệch chúng ta cần xác …

Đọc thêm

Xử lý dữ liệu lớn trong PHP và MySQL thế nào cho hiệu quả?

Sự khác biệt giữa 100 hàng dữ liệu và 100 ngàn hay thậm chí là một triệu hàng dữ liệu là rất nhiều! Ừ ai chả biết! Vấn đề ở đây là với dữ liệu lớn bạn không thể thao tác thủ công được. Bạn sẽ phải viết mã để chạy tự động. Và nếu mã không hiệu quả, thiết bị mà bạn chạy ứng dụng có thể không kham nổi. Các kinh nghiệm trong bài viết này được tôi rút ra khi phân tích một bảng dữ liệu họ tên có hơn 240 ngàn hàng. Bảng này bao gồm …

Đọc thêm

Thao tác dữ liệu ngày tháng năm sinh trong bảng họ tên bằng PHP

Ngày tháng năm sinh là dữ liệu rất thú vị để thống kê các thay đổi về họ tên người, chẳng hạn như khuynh hướng tên có nhiều từ hơn, giảm đệm Văn, Thị, các tên mới xuất hiện, các tên dần kém phổ biến, vân vân. Cũng tương tự với họ tên, chúng ta cũng cần chuẩn hóa dữ liệu ngày tháng năm sinh. Người Việt Nam thường sử dụng cấu trúc viết ngày trước, rồi đến tháng và cuối cùng là năm sinh. Để phân tách giữa ngày tháng năm người ta dùng ký tự / Ví dụ …

Đọc thêm

Các câu lệnh php dùng để thống kê họ tên

Thống kê họ tên có mấy nhiệm vụ cơ bản sau: Phân loại theo giới tính: hiện nay vẫn chủ yếu là nam và nữ; Thống kê họ phổ biến: ví dụ Nguyễn, Trần, Lê; Thống kê tên phổ biến: trong 2 giới nam và nữ; Thống kê các đệm phổ biến: trong 2 giới nam và nữ; Thống kê các đệm đặc biệt như Văn trong nam, và Thị trong nữ; Thống kê số từ trung bình trong tên / phân loại theo giới tính; Thống kê số ký tự trung bình trong tên / phân loại theo giới …

Đọc thêm

Cách nhập bảng dữ liệu Excel sang MySQL

Giả sử bạn có bảng dữ liệu trên 1000 hàng, lúc này nhập thủ công vào MySQL sẽ rất mất thời gian. Hôm nay tôi sẽ chia sẻ với bạn cách làm đơn giản hơn rất nhiều. Bước 1: bạn up file Excel lên Google Drive, sử dụng Google bảng tính để hiển thị dữ liệu. Bước 2: kiểm tra lại dữ liệu, đặc biệt chú ý tên cột. Các cột dữ liệu phải có tên, nên để không dấu để việc nhập vào MySQL được dễ dàng. Ví dụ: hoten gioi Nguyễn Đức Anh nam Ngô Kiều Trang nữ …

Đọc thêm

Các hàm, câu lệnh PHP và SQL xử lý họ tên số lượng lớn

Môi trường hosting: VPS Vultr High Frequency + Plesk Web Admin SE miễn phí. Riêng về các ứng dụng PHP tự viết, Plesk có vẻ tốt hơn so với control panel có tên CyberPanel. Dữ liệu là Tên là tên khai sinh, không phải biết hiệu, bút danh,.v.v. Giả dụ tôi có database tên ducanh, user là nguyen, trong đó có bảng tennguoi cần xử lý dữ liệu. Bảng gồm các cột hoten (VARCHAR 100) cho họ tên; ngay (VARCHAR 50) cho ngày tháng năm sinh; gioi (VARCHAR 50) cho giới tính và thutu (INT) để làm khóa chính, tăng …

Đọc thêm