Phân biệt các dữ liệu họ tên đầu vào để việc lọc được chính xác hơn

Có mấy cấp độ sau trong việc cung cấp cho chương trình phân tích dữ liệu: Đầu vào chỉ có danh sách họ tên, ngoài ra không có dữ liệu gì khác: đây là dạng dữ liệu tối thiểu phải có thì mới phân tích được. Đầu vào có danh sách họ tên, và ngày tháng năm sinh: khi có thêm thông tin ngày tháng năm sinh, chúng ta tiến hành được các phân tích dữ liệu theo thời gian. Ví dụ một đệm nào đó biến đổi về tỷ lệ % được dùng theo thời gian. Dữ liệu về …

Đọc thêm

Bổ sung các hàm lọc và sửa chính tả cho họ tên người Việt

Các danh sách họ tên người thu thập dễ vẫn còn các lỗi sai chính tả, dù tỉ lệ này không lớn (khoảng dưới 0.5% trong mẫu lớn SG01 mà tôi đã kiểm tra / không tính thả dấu, vì thả dấu đúng còn đang tranh cãi). Trong bài viết này, tôi tiếp tục kiểm tra và cập nhật các lỗi sai phổ biến và cách sửa. Các hàm này bổ sung tốt cho hàm phát hiện các ký tự lạ trong họ tên người. Tại sao họ tên quan trọng thế mà vẫn nhập sai? Họ tên là một …

Đọc thêm

Về việc giảm độ trùng dữ liệu trong trang kết quả html dựng sẵn khi tìm kiếm (ví dụ với chương trình gợi ý tên cho con)

Thông thường trang tìm kiếm là dữ liệu động, thay đổi tùy theo truy vấn của người dùng, và sẽ không lập chỉ mục cho nó. Tuy nhiên có một số dự án liên quan đến tìm kiếm, khi chúng ta có kết quả trả về ổn định, việc chuyển kết quả thành dạng html sẽ cho tốc độ tìm kiếm nhanh hơn, tiết kiệm tiền máy chủ, và có thể có ích trong SEO, khi trang kết quả được lập chỉ mục. Liên quan đến lập chỉ mục, SEO, khả năng cao sẽ xuất hiện vấn đề ở đây, …

Đọc thêm

Hàm PHP đơn giản giúp xác định giới tính của tên

Hôm nọ tôi có viết bài mô hình xác định giới tính của đệm tên, trong đó có nói sơ về thuật toán, và mấy mảng chỉ số phân biệt giới để dùng phân tích dữ liệu đầu vào. Hôm nay, tôi viết hàm PHP đơn giản để xử lý vấn đề đó, nó đây: Trước hết là 2 hàm nhỏ hỗ trợ: Sau đó là hàm chính: Cách nó thực hiện Nó trả về một trong 3 kết quả: nam, nữ, unknown; Đầu vào có thể là một từ, ví dụ Tuấn, Đức, Thảo, Thanh, hoặc 2 từ như …

Đọc thêm

Phát triển mô hình xác định giới tính của đệm tên

Trong khi phát triển chương trình gợi ý tên hay cho con, tôi phát hiện ra tầm quan trọng của việc xác định giới tính của tên mà người dùng nhập vào. Ví dụ khi người dùng nhập Đức Hùng, Mạnh Linh, Ngọc Châu, Thùy Vi, chương trình cần phải xác định được với độ chính xác cao rằng tên đó có xu hướng dành cho nam hay nữ nhiều hơn. Vì chỉ có xác định được chính xác thông tin này thì nó mới đưa ra được các gợi ý phù hợp, chẳng hạn các đệm khác có thể …

Đọc thêm

Chuyển file PHP thành file tĩnh HTML để cải thiện tốc độ với câu lệnh fopen và fwirte

Khi chúng ta tạo các ứng dụng PHP động để xử lý thì có một vấn đề là dù mã tốt đi chăng nữa, với số lượng truy cập lớn hoặc máy chủ yếu vì không đủ tiền thuê có khả năng vấn đề hiệu suất, tốc độ sẽ phát sinh. Một trường hợp điển hình nữa đó là ứng dụng PHP có hàm xử lý phức tạp, dẫn đến thời gian xử lý lâu dù chúng ta đã chịu khó đầu tư thêm ít nhiều. Khi đó giải pháp khác giải quyết tương đối tốt đó là bạn xuất …

Đọc thêm

Hàm PHP thông báo đặc điểm dữ liệu ngày tháng sinh đầu vào với lượng dữ liệu lớn (v1.2)

Dù dữ liệu ngày tháng năm sinh nhìn chung có cấu trúc ổn định, rất ít sai sót thì việc kiểm tra trước để có cái nhìn tổng quan về nó không thừa. Vì dữ liệu này sẽ liên kết rất nhiều đến các thống kê liên quan. Để chạy file này ngoài việc require đến database.php, bạn cần require đến: Hàm lười để lấy nhanh dữ liệu từ database; Các hàm để kiểm tra dữ liệu ngày tháng năm sinh người; Ví dụ khi tôi thử chạy với một tệp dữ liệu của mình: Mục tiêu của nó là …

Đọc thêm

Hàm PHP phát hiện các ký tự lạ trong họ tên người Việt Nam (v1.2)

Các ký tự lạ trong mẫu hơn 230 ngàn họ tên mà tôi có không nhiều, vì dữ liệu đầu vào đã khá chuẩn chỉnh rồi. Trong mẫu tỷ lệ chưa đến 0,1% dữ liệu dạng này. Ký tự lạ là các ký tự ngoài các chữ cái. Tạm thời không phân biệt tên nước ngoài, tên lai (tức là chấp nhận các ký tự f, j, w, z – phần này sẽ được lọc ở hàm khác). Các ký tự lạ này phần lớn là dạng chủ động, tức là người nhập liệu ý thức được việc này. Mục …

Đọc thêm

Viết lại hàm PHP sửa lỗi dính trong họ tên người (v1.2)

Lỗi dính họ tên có tỷ lệ không quá lớn, trong dữ liệu tôi khảo sát, con số nằm trong khoảng 0,2 – 0,3%. Ví dụ về lỗi dính họ tên: Nguyễn ĐứcAnh Một trong điều dễ chịu với lỗi này là lỗi dính họ tên rất dễ phát hiện, và cũng dễ sửa. Để đảm bảo quá trình chỉnh sửa có tỷ lệ chính xác cao và đáng tin cậy, việc tách từ dính được tiến hành như sau. Dựa trên ký tự viết hoa: Dựa trên ký tự Viết Hoa của từ, như trong ví dụ Nguyễn ĐứcAnh …

Đọc thêm