Categories Ngôn ngữ

Phiên bản mới của bầu.com (RC2) ra mắt

bầu.com ra mắt phiên bản RC2

Sau khoảng hai tháng tích cực cải thiện, hôm nay 8/1/2023, bầu.com (chương trình gợi ý tên hay cho bé) chính thức ra mắt phiên bản 2, với một số thay đổi quan trọng, trong đó tập trung vào phân tích sâu hơn đệm – tên người dùng nhập vào.

Những cải tiến chủ yếu bao gồm:

  • Quy mô dữ liệu mẫu tăng gần 3 lần: Số lượng mẫu lớn, giúp hệ thống đưa ra các phân tích và gợi ý tốt hơn.
  • Phân tích chính xác hơn giới tính của đệm tên: phiên bản 1 chỉ sử dụng mô hình đơn giản của chỉ số phân biệt giới riêng lẻ giữa đệm và tên, ở phiên bản 2 nó sử dụng mô hình cụ thể hơn là tần số thực tế của đệm tên đó trong từng giới, mô hình này cho kết quả tốt hơn đáng kể (nhưng nó cũng đòi hỏi dữ liệu mẫu lớn hơn nhiều), đặc biệt với những đệm tên có tính nhập nhằng về giới cao, ví dụ như Bảo An, Ngọc Anh,…
  • Bổ sung thêm các tên chính hiếm gặp: phiên bản 2 bổ sung thêm hơn 100 tên đơn hiếm gặp (về mặt tỷ lệ) nhưng vẫn có số lượng người dùng đáng kể khi tính trên cả quần thể, điều này giúp độ phủ đạt kết quả tốt hơn.
  • Cải thiện phần giải thích ý nghĩa: để giảm độ phức tạp trong phần giải nghĩa tôi đã loại bỏ các nghĩa mà hầu như không tồn tại, ít có sự liên tưởng trong thực tế, ngoài ra nó bổ sung thêm phần giải nghĩa của từ điển tiếng Việt (Hoàng Phê chủ biên) và cả của Viện từ điển học và bách khoa thư Việt Nam khi cần thiết. Hai điều trên vừa giúp phần giải nghĩa gọn gàng nhưng cũng gần gũi hơn.
  • Phân tích các đệm tên đảo ngược: ví dụ như Nhật Nam / Nam Nhật, hay Thùy Hương / Hương Thùy, hoặc Thùy Linh / Linh Thùy, vân vân. Điều này có thể giúp tránh cho người đặt tên lựa chọn ngược với mô hình chung, và tạo ra các tên không “thuận”. Tất nhiên cái này chỉ là gợi ý, người đặt tên có quyền đặt theo ý mình, kể cả nó có hơi “ngược”, bởi việc thuận nghịch này không phải lúc nào cũng chuẩn 100% (ý là không phải lúc nào nghịch cũng không hay bằng thuận).
  • Phân tích sâu hơn các đệm tên liên quan: phiên bản 1 chỉ trình bày các đệm tên liên quan đến thông tin người dùng nhập vào mà không trình bày gì thêm, ở phiên bản 2 nó thông báo chi tiết về tỷ lệ cũng như thứ hạng.
  • Bổ sung hàng loạt biểu đồ: các biểu đồ (sử dụng thư viện JS ECharts) có vai trò cải thiện khả năng đọc hiểu nội dung, nó đi kèm với nhiều phân tích về tỷ lệ.
  • Tăng thêm 50% các tên hay ngẫu nhiên: các tên hay này dựa trên tần số, các tên phổ biến nhất được đưa vào đây kèm thêm một số bộ lọc để loại bỏ các đệm tên không ổn,… Quy mô mẫu tăng lên giúp các tên hay ngẫu nhiên này cũng được tăng số lượng.
  • Bổ sung các tên 4 chữ: cho cả nam và nữ, đặc biệt ở nữ nó được thiết kế với độ sâu tốt hơn, điều này cũng phản ánh thực tế là nữ giới thường dùng tên 4 chữ hơn, trong phiên bản này chúng tôi ưu tiên cho nữ trong việc gợi ý tên 4 chữ, tuy nhiên ở nam giới chất lượng gợi ý cũng đủ tốt.

Cập nhật: ngày 25/1/23, chương trình được cập nhật thêm một chút với việc thêm 15% dữ liệu mẫu, đưa thêm ảnh đại diện, tăng tính ngẫu nhiên trong gợi ý để đưa ra các tên ít phổ biến hơn giúp hạn chế tình trạng trùng tên. Lần cập nhật nhỏ này chủ yếu mở rộng quy mô, không bổ sung thêm tính năng nào đáng chú ý.

Các tính năng dự kiến trong phiên bản 3:

  • Đặt tên con theo tên của bố, mẹ, anh chị em trong nhà.
  • Cập nhật ảnh minh họa đại diện, loại bỏ các ảnh không phù hợp.
  • Phân tích sâu hơn họ tên 4 chữ.
  • Tiếp tục bổ sung thêm các tên hiếm gặp.
  • Phân tích họ tên theo mô hình ngữ nghĩa nhiều hơn (hiện nay chương trình vẫn chủ yếu dựa theo mô hình tần số, nó cho kết quả tốt, nhưng cũng bỏ lỡ nhiều tên hiếm và hay).
Back to Top