Phân biệt các dữ liệu họ tên đầu vào để việc lọc được chính xác hơn

Có mấy cấp độ sau trong việc cung cấp cho chương trình phân tích dữ liệu: Đầu vào chỉ có danh sách họ tên, ngoài ra không có dữ liệu gì khác: đây là dạng dữ liệu tối thiểu phải có thì mới phân tích được. Đầu vào có danh sách họ tên, và ngày tháng năm sinh: khi có thêm thông tin ngày tháng năm sinh, chúng ta tiến hành được các phân tích dữ liệu theo thời gian. Ví dụ một đệm nào đó biến đổi về tỷ lệ % được dùng theo thời gian. Dữ liệu về …

Đọc thêm

Bổ sung các hàm lọc và sửa chính tả cho họ tên người Việt

Các danh sách họ tên người thu thập dễ vẫn còn các lỗi sai chính tả, dù tỉ lệ này không lớn (khoảng dưới 0.5% trong mẫu lớn SG01 mà tôi đã kiểm tra / không tính thả dấu, vì thả dấu đúng còn đang tranh cãi). Trong bài viết này, tôi tiếp tục kiểm tra và cập nhật các lỗi sai phổ biến và cách sửa. Các hàm này bổ sung tốt cho hàm phát hiện các ký tự lạ trong họ tên người. Tại sao họ tên quan trọng thế mà vẫn nhập sai? Họ tên là một …

Đọc thêm

Hàm PHP sửa các lỗi hiển thị ký tự kỳ lạ trong tiếng Việt

Đôi khi bạn sẽ thấy các ký tự kỳ lạ hiển thị như thế này trong văn bản tiếng Việt: “á”,”à“,”ả”,”ã”,”ạ”,”ă”,”ắ”,”ằ”,”ẳ”,”ẵ”,”ặ”,”â”,”ấ”,”ầ”,”ẩ”,”ẫ”,”ậ”,”é”,”è”,”ẻ”,”ẽ”,”ẹ”,”ê”,”ế”,”ề”,”ể”,”á»…”,”ệ”,”ó”,”ò”,”ỏ”,”õ”,”ọ”,”ô”,”ố”,”ồ”,”ổ”,”á»—”,”á»™”,”Æ¡”,”ờ”,”á»›”,”ở”,”ỡ”,”ợ”,”ú”,”ù”,”ủ”,”Å©”,”ụ”,”Æ°”,”ứ”,”ừ”,”á»­”,”ữ”,”á»±”,”ý”,”ỳ”,”á»·”,”ỹ”,”ỵ”,”í”,”ì”,”ỉ”,”Ä©”,”ị”,”Ä‘” “Á”,”À”,”Ả”,”Ô,”Ạ“,”Ä‚”,”Ắ”,”Ằ”,”Ẳ”,”Ẵ”,”Ặ”,””,”Ấ”,”Ầ”,”Ẩ”,”Ẫ”,”Ậ”,”É”,”È”,”Ẻ”,”Ẽ”,”Ẹ”,”Ê”,”Ế”,”Ề”,”Ể”,”Ễ”,”Ệ”,”Ó”,”Ã’”,”Ỏ”,”Õ”,”Ọ”,”Ô”,”Ố”,”á»’”,”á»””,”á»–”,”Ộ”,”Æ “,”Ờ”,”Ớ”,”Ở”,”á» “,”Ợ”,”Ú”,”Ù”,”Ủ”,”Ũ”,”Ụ”,”Ư”,”Ứ”,”Ừ”,”Ử”,”á»®”,”á»°”,”Ý”,”Ỳ”,”Ỷ”,”Ỹ”,”á»´”,”Í”,”ÃŒ”,”Ỉ”,”Ĩ”,”Ị”,”Đ” Ví dụ dưới đây là 25 câu đầu trong truyện Kiều: Nó có thể xuất hiện khi bạn đọc một tài liệu nào đó, hoặc trong dữ liệu ứng dụng của chính bạn. Hiện tôi cũng chỉ biết lỗi này liên quan đến vấn đề mã hóa, chứ không rõ nguyên nhân sâu xa tại sao nó lại bị như vậy. Tuy nhiên trong bài viết này tôi vẫn có cách để bạn có thể khắc phục vấn …

Đọc thêm

Hàm PHP đơn giản giúp xác định giới tính của tên

Hôm nọ tôi có viết bài mô hình xác định giới tính của đệm tên, trong đó có nói sơ về thuật toán, và mấy mảng chỉ số phân biệt giới để dùng phân tích dữ liệu đầu vào. Hôm nay, tôi viết hàm PHP đơn giản để xử lý vấn đề đó, nó đây: Trước hết là 2 hàm nhỏ hỗ trợ: Sau đó là hàm chính: Cách nó thực hiện Nó trả về một trong 3 kết quả: nam, nữ, unknown; Đầu vào có thể là một từ, ví dụ Tuấn, Đức, Thảo, Thanh, hoặc 2 từ như …

Đọc thêm

Phát triển mô hình chương trình gợi ý tên hay cho con

Mục đích của chương trình: Giúp cha mẹ chọn được tên con hay có ý nghĩa. Tên không dài dòng, ít trùng lặp; Yêu cầu cơ bản: Yêu cầu tiếp cận theo hướng đơn giản cho toàn bộ chương trình, để đáp ứng tính phổ quát. Hạn chế việc giải nghĩa rườm rà, nặng chữ nghĩa không cần thiết; Thiết kế tốt, hoạt được ổn định trên các thiết bị di động khác nhau; Tốc độ cao; Bố cục của chương trình Gồm 3 phần chính Giải nghĩa: bao gồm giải thích ý nghĩa của cả tên chính và đệm …

Đọc thêm

Phát triển mô hình xác định giới tính của đệm tên

Trong khi phát triển chương trình gợi ý tên hay cho con, tôi phát hiện ra tầm quan trọng của việc xác định giới tính của tên mà người dùng nhập vào. Ví dụ khi người dùng nhập Đức Hùng, Mạnh Linh, Ngọc Châu, Thùy Vi, chương trình cần phải xác định được với độ chính xác cao rằng tên đó có xu hướng dành cho nam hay nữ nhiều hơn. Vì chỉ có xác định được chính xác thông tin này thì nó mới đưa ra được các gợi ý phù hợp, chẳng hạn các đệm khác có thể …

Đọc thêm

Chuyển file PHP thành file tĩnh HTML để cải thiện tốc độ với câu lệnh fopen và fwirte

Khi chúng ta tạo các ứng dụng PHP động để xử lý thì có một vấn đề là dù mã tốt đi chăng nữa, với số lượng truy cập lớn hoặc máy chủ yếu vì không đủ tiền thuê có khả năng vấn đề hiệu suất, tốc độ sẽ phát sinh. Một trường hợp điển hình nữa đó là ứng dụng PHP có hàm xử lý phức tạp, dẫn đến thời gian xử lý lâu dù chúng ta đã chịu khó đầu tư thêm ít nhiều. Khi đó giải pháp khác giải quyết tương đối tốt đó là bạn xuất …

Đọc thêm

Cải tiến thêm hàm PHP phát hiện lỗi chính tả tiếng Việt (v1.2 Plus)

Hàm PHP này tận dụng triệt để mô hình nguyên âm và phụ âm của tiếng Việt để kiểm tra lỗi chính tả: 1 ký tự: Nếu từ đó chỉ có một ký tự, nó buộc phải thuộc về bộ nguyên âm đơn, vì phụ âm đơn không tạo thành từ có nghĩa. — 2 ký tự: Từ đó có thể thuộc về bộ nguyên âm đôi; Ký tự đầu là phụ âm, ký tự sau là nguyên âm; Ký tự đầu là nguyên âm, ký tự sau là phụ âm; — 3 ký tự: Cả cụm từ thuộc về …

Đọc thêm

Hàm (function) trong PHP

Sức mạnh thực sự của PHP đến từ các hàm; nó có hơn 1000 hàm xây dựng sẵn cho bạn sử dụng. Người dùng tự định nghĩa hàm Bên cạnh các hàm xây dựng sẵn, chúng ta có thể tự tạo các hàm dùng cho riêng mình. Hàm là khối lệnh có thể sử dụng nhiều lần trong chương trình (giúp bạn tiết kiệm thời gian gõ code cũng như chỉnh sửa, quản lý lỗi). Hàm không được thực thi ngay lập tức khi trang được tải về. Hàm chỉ được thực thi bằng lời gọi hàm. Cách tạo một …

Đọc thêm