Phân biệt các dữ liệu họ tên đầu vào để việc lọc được chính xác hơn

Có mấy cấp độ sau trong việc cung cấp cho chương trình phân tích dữ liệu:

  • Đầu vào chỉ có danh sách họ tên, ngoài ra không có dữ liệu gì khác: đây là dạng dữ liệu tối thiểu phải có thì mới phân tích được.
  • Đầu vào có danh sách họ tên, và ngày tháng năm sinh: khi có thêm thông tin ngày tháng năm sinh, chúng ta tiến hành được các phân tích dữ liệu theo thời gian. Ví dụ một đệm nào đó biến đổi về tỷ lệ % được dùng theo thời gian. Dữ liệu về năm sinh là bắt buộc nếu chúng ta muốn phân tích theo thời gian. Và để hiệu quả, nó cần trải dài từ 5 năm đổ lên, các ngưỡng ít hơn sẽ khó phát hiện các thay đổi hoặc các thay đổi kém tin cậy.
  • Đầu vào có danh sách họ tên, ngày tháng năm sinh, giới tính: đây là dạng dữ liệu tiêu chuẩn khi phân tích dữ liệu họ tên. Có thông tin giới và ngày tháng năm sinh, giúp các phân tích đạt độ chi tiết cao theo giới và theo thời gian. Giới rất quan trọng, vì họ tên có đặc trưng giới rất cao. Các thống kê về họ tên rất khác biệt giữa hai giới.
  • Đầu vào có danh sách họ tên, ngày tháng năm sinh, giới tính, và dân tộc: đây là dạng dữ liệu hoàn hảo khi phân tích dữ liệu họ tên. Họ tên cũng mang đặc trưng dân tộc rất khác biệt, tên người Kinh rất khác so với tên người dân tộc thiểu số cả về cấu trúc và ký tự được dùng. Các kiểm tra chính tả đúng với người Kinh thì không chắc đúng với tên người dân tộc thiểu số.

Các yêu cầu về dữ liệu

  • Tốt nhất là dữ liệu được lấy từ một nguồn, với độ tin cậy cao. Vì dữ liệu lấy từ nhiều nguồn khác nhau dễ phát sinh tính chất không đồng dạng, và độ tin cậy khác nhau.
  • Nếu lấy từ nhiều nguồn, dữ liệu cần đồng dạng, và có mức độ tin cậy tương đương. Không phải lúc nào chúng ta cũng có dữ liệu họ tên từ một nguồn duy nhất, khi phải lấy từ nhiều nguồn, thì điều quan trọng là chúng có “form” và độ tin cậy tương đồng.

Các thuật toán lọc phụ thuộc vào kiểu dữ liệu đầu vào

Dù dữ liệu họ tên đầu vào thường có độ chính xác cao, đạt khoảng 99% trong hầu hết trường hợp. Nhưng để dữ liệu chính xác hơn, hạn chế dữ liệu sai can thiệp vào các thống kê có kết quả nhỏ (1% thì không đáng kể với các thống kê lớn, nhưng nó có thể can thiệp sâu vào các kết quả khác, chẳng hạn nó có khả năng tạo ra một “họ sai chính tả” với tỷ lệ 0,02% nào đó) do vậy chúng ta vẫn cần lọc dữ liệu.

Các phép lọc cần chú ý đến một trong các đặc trưng quan trọng nhất sau:

  • Tên của người Kinh và một số dân tộc khác tuân thủ rất chặt chẽ quy tắc chính tả chung.
  • Tên của một số dân tộc thiểu số rất khác biệt, sử dụng các ký tự ngoài ký tự tiếng Việt thông thường, chẳng hạn các dấu ‘ và ~.

Do vậy việc lọc dữ liệu sai chính tả trong nguồn có đa dạng dân tộc rất khó khăn, điều này sẽ được khắc phục nếu:

  • Dữ liệu đầu vào hiển thị dưới dạng ký tự ngoài tiếng Việt có tỷ lệ rất nhỏ.
  • Hoặc dữ liệu có thêm trường dân tộc để cho biết người có tên đó thuộc dân tộc nào.
  • Và độ tin cậy của nguồn dữ liệu đầu vào cao (có những nguồn có thể đạt độ chính xác trên 99,7%).

Đặc biệt với độ tin cậy của nguồn dữ liệu đầu vào cao, thì kể cả không có trường dân tộc, chúng ta vẫn phân tích được, và không cần sử dụng hàm lọc chính tả nữa.

Trong trường hợp không dám chắc về độ tin cậy, nhưng có trường dân tộc, thì chúng ta có thể tách tên của người Kinh và các dân tộc khác ra. Tiến hành kiểm tra chính tả với họ tên người Kinh để cải thiện tính chính xác, và cũng để kiểm tra ngược xem độ chính xác của văn bản.

Leave a Comment