Chỉ số phân biệt giới của đệm gần tên chính nhất – thông tin đáng tin cậy hơn giúp xác định giới tính của tên

Trong bài viết gần đây, tôi đã tiến hành phân tích chỉ số phân biệt giới của đệm một và đệm hai nhằm giúp xác định giới của tên cũng như giúp chương trình gợi ý tên cho con đưa ra các đệm phù hợp hơn. Tuy nhiên trong bài viết đó ở phần cuối tôi cũng chỉ ra rằng, đó không phải là biện pháp hay nhất, do có sự khác biệt lớn về số lượng từ trong tên ở nam và nữ, trong khi nữ có khoảng 2/3 số lượng tên có 4 từ, thì nam chỉ khoảng 1/4 số lượng tên có 4 từ mà thôi. Để cải thiện độ chính xác tôi sẽ thống kê chỉ số phân biệt giới của đệm gần tên chính nhất, bất kể đó là đệm một hay đệm hai.

Ví dụ tên Nguyễn Đức Anh, và Lê Hoàng Vĩnh Thịnh thì đệm một lần lượt là Đức và Hoàng. Đệm hai thì tên đầu không có, tên thứ hai là Vĩnh. Đệm gần tên chính nhất lần lượt là Đức và Vĩnh.

Việc sử dụng đệm gần tên chính nhất sẽ làm cho vấn đề số lượng từ trong tên không còn là yếu tố can thiệp, hơn nữa đó cũng là dữ liệu đầu vào tiêu chuẩn của người dùng khi họ muốn xem một tên nào đó cho con, cháu mình, người dùng sẽ nhập đệm gần tên chính nhất + tên chính. Ví dụ trường hợp trên họ sẽ nhập Đức Anh hoặc Vĩnh Thịnh.

Về tỷ lệ đệm sát gần tên chính nhất ở nam và nữ bạn tham khảo bài viết này, nó cho thấy một đệm nào đó phổ biến như thế nào trong họ tên nam và nữ.


Khái niệm chỉ số phân biệt giới của đệm

Ví dụ chúng ta sẽ hiểu ngay. Chẳng hạn trong mẫu có 4440 người có đệm gần tên chính nhất là Bảo, trong đó có 3440 người sử dụng đệm Bảo là nữ, 1000 người sử dụng đệm Bảo trong tên là nam. Thế thì chỉ số phân biệt giới của đệm Bảo dành cho nữ là 3440 / 1000 = 3,44. Còn đối với nam sẽ là 1000 / 3440 = 0,29 (làm tròn đến số thập phân thứ hai).


Chỉ số phân biệt giới của đệm nữ

Trước tiên là chỉ số phân biệt giới của đệm gần tên chính nhất, trong 100 đệm phổ biến nhất ở nữ (riêng với kết quả -1 nghĩa là không tìm thấy bất cứ tên nam nào trong mẫu có đệm đó, điều đó cho thấy đây là đệm rất tốt để dùng làm tên cho nữ):

Thứ tựĐệm gần tên chính nhất (nữ)Chỉ số phân biệt giới (nữ / nam)
1Bảo 3.44
2Ngọc 4.21
3Thanh 1.65
4Phương 14.96
5Minh 0.42
6Kim 12.5
7Khánh 3.55
8Quỳnh200.86
9Gia 0.43
10Như 27.57
11Anh 0.57
12Thảo 155.42
13Mỹ 149.79
14Yến214.62
15Hồng2.97
16Thùy 142.06
17Tường 16.06
18Hoàng0.24
19Thiên0.74
20Tuyết 180.5
21Thu 95.6
22Mai 44.63
23Xuân 1.28
24Trúc 71.42
25Thúy 422
26Bích 96.09
2712.49
28Ánh 50.53
29Hải 0.8
30Nhã 93
31Kiều 95.89
32Cẩm6.75
33Diễm 95.5
34Lan 150.4
3522.58
36Vân 23.45
37Thủy 69.4
38Trâm 200.33
39Trà 118.2
40Thị -1
41Huỳnh 2.45
42Uyên 93.17
43Hoài 0.82
44Nhật 0.19
45Cát 16.45
46Tâm 5.9
47Huyền 66
48Hương 55.5
49Linh 14.17
50Khả 9.16
51Ái 56.43
52An 0.98
53Diệu 9.94
54Ngân 27
55Thục 94
56Quế 18.6
57Kỳ 1.39
58Tuệ 12.53
59Đan 6.03
60Thái 0.21
61Tố 75.67
620.41
63Bội 31.14
64Đông 1.17
65Phi 0.41
66Hạnh 22.11
67Uyển -1
68Song 3.76
69Nam 0.38
70Huệ 19.56
71Nguyệt 86
72Ý 18.33
73Mẫn8.2
74Nguyên0.19
75Phúc 0.1
76Châu 2.13
77Trang 31.75
78Lam8.27
79Tiểu4.52
80Bình0.38
81Hiền 3.89
82Lệ 108
83Băng 107
84Mộng -1
85Đoan -1
86Triệu0.83
87Hiểu 2.61
88Việt 0.13
89Thư 89
90Vy 21.75
91Hạ 40.5
92Lâm 0.43
93Thụy 25
94Hiếu 0.23
95Khải0.29
96Phụng14.2
97Diệp4.67
98Thy16.75
99Khiết5.45
100Hân 18.67


Chỉ số phân biệt giới của đệm nam

Còn thông tin bên dưới đây dành cho đệm gần nhất ở tên nam (riêng với kết quả -1 nghĩa là không tìm thấy bất cứ tên nũ nào trong mẫu có đệm đó, điều đó cho thấy đây là đệm rất tốt để dùng làm tên cho nam):

Thứ tự Đệm gần tên chính nhất (nam) Chỉ số phân biệt giới (nam / nữ)
1Minh2.37
2Gia2.32
3Hoàng4.1
4Quốc256.91
5Anh1.75
6Thanh0.6
7Thành 328.92
8Tuấn377.2
9Tấn438.38
10Đức 157.16
11Quang 218.62
12Văn 394.14
13Bảo 0.29
14Nhật 5.14
15Đăng 81.57
16Duy56.55
17Thiên 1.36
18Ngọc 0.24
19Trung 96.15
20Hữu 136.93
21Trọng 231.5
22Phúc10.4
23Tiến506.67
24Chí 138.1
25Khánh0.28
26Hải1.25
27Huy97.17
28Đình34.91
29Xuân0.78
30Thái4.72
31Công177.83
32Trí110.67
33Thế100.89
34Phước 18.52
35Phú49.65
36Hồng 0.34
37Nguyên 5.2
38Trường 15.54
39Việt 7.87
40Vĩnh17.13
41Hoài 1.22
42Mạnh 108.17
43Thiện 14.45
442.43
45Phi 2.45
46Nam 2.61
47Phương 0.07
48221.5
49Đại103.5
50An 1.02
51Kim 0.08
52Khôi 17.14
53Kiến 48.71
54Hiếu 4.36
55Nhựt 12.04
56Bình 2.61
57Cao 24
5816.88
59Hùng 84
60Khải3.41
61Chấn 247
62Huỳnh 0.41
63Viết 43.6
64Hưng194
65Tùng5.39
66Đông 0.86
67Phát 180
68Kỳ 0.72
69Hạo 14.83
70Long 25.29
71Nhất 11
72Lâm 2.3
7332.2
74Thuận7.85
75Khang 7.84
76Vinh 24.67
77Sơn 4.33
78Nguyễn6.71
79Quý 3.29
80Khắc 32.75
81Trần21.5
82Cẩm0.15
83Sỹ 119
84Nhân6.5
85Triệu1.21
86Như0.04
87Tuần -1
88Tường 0.06
89Phong20
90Tần-1
91Dương 6.13
92Đắc -1
93Hào 43
94Danh 17
95Triều3.4
960.08
97Tâm0.17
98Hòa 7.8
9935.5
100Hoàn 1.48

Kết hợp chỉ số phân biệt giới của đệm và chỉ số phân biệt giới của tên, tôi thử viết hàm PHP đơn giản để xác định giới của tên đầu vào. Độ chính xác khi kiểm tra ngược cho kết quả khả quan, với hơn 92% kết quả trả về là đúng trong mẫu.

Leave a Comment