Về mẫu họ tên người SG01

Mẫu họ tên người SG01 được tôi sử dụng để tạo ra các thống kê gồm:

Đây là mẫu bao gồm số lượng họ tên người lớn nhất mà tôi hiện có, bao gồm 240962 họ tên chủ yếu ở khu vực TP HCM và các vùng lân cận. Trong đó có 124810 họ tên nam giới và 116152 họ tên nữ giới hợp lệ.

Mẫu thô ban đầu gồm 243963 họ tên nhưng được lọc để loại bỏ các họ tên không phù hợp, bao gồm:

  • Các họ tên có yếu tố nước ngoài, ví dụ họ tên người nước ngoài, họ tên của con lai giữa người Việt Nam và người nước ngoài;
  • Các họ tên sai lỗi chính tả mà không thể sửa được với độ tin cậy cao;
  • Các họ tên có năm sinh không phù hợp, chẳng hạn năm sinh không đúng là năm sinh thực, năm sinh nằm ngoài giới hạn được chọn;

Với mẫu chuẩn SG01 có khoảng 1% số lượng họ tên được sửa lỗi sai chính tả, bao gồm:

  • Lỗi dính từ. Ví dụ Nguyễn ĐứcAnh được sửa thành Nguyễn Đức Anh;
  • Lỗi thả dấu. Để thống nhất quy tắc thả dấu, ví dụ Tòan được sửa thành Toàn; Hùynh được sửa thành Huỳnh;
  • Các từ viết tắt rõ ràng, ví dụ Ng~ thành Nguyễn;
  • Loại bỏ các chú thích cuối tên như (HN), (1), (2), (SG),…thường có trong các họ tên trùng nhau trong nhóm hoặc chú thích thêm. Đây là kiểu chú thích chủ động, nhưng trong phân tích họ tên thì cần bỏ đi;
  • Và một số loại trừ lặt vặt khác;

Đối với ngày tháng năm sinh, nó được chuẩn hóa về dạng dd/mm/yyyy. Tức là năm có 4 số, và nếu ngày hoặc tháng nhỏ hơn 10 sẽ được bổ sung số 0 đằng trước.

Việc chuẩn hóa và sửa các lỗi chính tả cơ bản giúp thống kê có kết quả chính xác hơn.

Ngôn ngữ lập trình được tôi sử dụng để thực hiện thống kê là PHP trên localhost để tận dụng sức mạnh của máy tính tại nhà và cũng để tiết kiệm tiền so với việc thuê VPS hoặc máy chủ.


Ưu và nhược điểm của mẫu họ tên SG01

a. Ưu điểm

  • Số lượng họ tên trong mẫu lớn, hơn 240 ngàn họ tên người;
  • Ngay mẫu thô dữ liệu đã khá chuẩn, với chỉ 1% lượng dữ liệu họ tên cần chỉnh sửa;
  • Dữ liệu ngày tháng và dữ liệu giới có tỉ lệ chính xác cao;
  • Dữ liệu nhìn chung có độ thống nhất cao về định dạng;

b. Nhược điểm

  • Mẫu chủ yếu bao gồm họ tên của người Kinh hoặc người dân tộc thiểu số hoặc người Việt gốc Hoa được thể hiện dưới dạng văn bản như tên của người Kinh. Các tên của người dân tộc thiểu số mà được thể hiện dưới dạng văn bản đặc trưng tiếng dân tộc không có trong mẫu này;
  • Mẫu năm sinh của họ tên không trải dải trong khoảng thời gian đủ lớn, chỉ trong vòng 5 năm, do vậy các thống kê quan trọng khác như sự tăng giảm mức độ phổ biến của một tên, đệm nào đó qua thời gian khó phát hiện. Điều này sẽ được khắc phục trong các mẫu dữ liệu họ tên khác khi đó chúng ta sẽ có các thống kê thú vị liên quan đến sự thay đổi của họ tên người qua thời gian;

Các chỉ số thống kê cơ bản khác của mẫu này

Tổng hàng dữ liệu (tất cả): 243963

Tổng dữ liệu họ tên hợp lệ (nam & nữ): 240962

Tổng dữ liệu họ tên nam hợp lệ: 124810

Tổng dữ liệu họ tên nữ hợp lệ: 116152

Tổng dữ liệu họ tên nam hợp lệ (có 2 từ): 1160

Tổng dữ liệu họ tên nữ hợp lệ (có 2 từ): 235

Tổng dữ liệu họ tên nam hợp lệ (có 3 từ): 90799

Tổng dữ liệu họ tên nữ hợp lệ (có 3 từ): 40358

Tổng dữ liệu họ tên nam hợp lệ (có 4 từ): 32633

Tổng dữ liệu họ tên nữ hợp lệ (có 4 từ): 74983

Tổng dữ liệu họ tên nam hợp lệ (có 5 từ): 215

Tổng dữ liệu họ tên nữ hợp lệ (có 5 từ): 564

Tổng dữ liệu họ tên nam hợp lệ (> 5 từ): 3

Tổng dữ liệu họ tên nữ hợp lệ (> 5 từ): 12

Tổng dữ liệu họ tên nam có đệm (3 từ đổ lên): 123650

Tổng dữ liệu họ tên nữ có đệm (3 từ đổ lên): 115917

Hợp lệ gồm: (1) họ tên đúng chính tả; (2) có ít nhất 2 từ; (3) ngày tháng năm sinh thực; (4) trong khoảng năm được chọn [tôi không công khai thông tin này]; (5) giới tính là nam hoặc nữ.

Leave a Comment