Đồng bộ mã hóa tiếng Việt có dấu là điều phải làm để có được kết quả thống kê chính xác

Phiên bản nâng cấp của bộ chuyển đổi mã hex tiếng Việt đã có ở bài viết này: Các hàm PHP chuyển đổi ký tự tiếng Việt từ dạng mã hex ít phổ biến về dạng phổ biến và ngược lại (v1.2) Trong bài viết trước, tôi có nói về bộ chuyển mã hóa tiếng Việt để nó có bộ mã hóa UTF-8 đồng nhất, đây chính là hàm xử lý việc đó: Đoạn mã này sẽ chuyển các ký tự tiếng Việt có dấu (sắc, huyền, hỏi, ngã, nặng) đang được mã hóa ở dạng không phổ thông về …

Đọc thêm

Xử lý dữ liệu họ tên sai lệch như thế nào trong hệ thống database lớn?

Đối với dữ liệu lớn, thu từ nhiều nguồn, tôi phát hiện ra là việc xử lý đồng bộ định dạng và sửa lỗi cực kỳ quan trọng và có thể tốn thời gian không kém việc phân tích chính thức sau này. Xử lý dữ liệu sai lệch là điều bắt buộc cần phải làm vì nếu không kết quả phân tích được xem là vô nghĩa vì không thể tin cậy được (ít nhất ở khía cạnh không ước tính được độ sai lệch dữ liệu). Trước khi xử lý dữ liệu sai lệch chúng ta cần xác …

Đọc thêm

Xử lý dữ liệu lớn trong PHP và MySQL thế nào cho hiệu quả?

Sự khác biệt giữa 100 hàng dữ liệu và 100 ngàn hay thậm chí là một triệu hàng dữ liệu là rất nhiều! Ừ ai chả biết! Vấn đề ở đây là với dữ liệu lớn bạn không thể thao tác thủ công được. Bạn sẽ phải viết mã để chạy tự động. Và nếu mã không hiệu quả, thiết bị mà bạn chạy ứng dụng có thể không kham nổi. Các kinh nghiệm trong bài viết này được tôi rút ra khi phân tích một bảng dữ liệu họ tên có hơn 240 ngàn hàng. Bảng này bao gồm …

Đọc thêm

Thao tác dữ liệu ngày tháng năm sinh trong bảng họ tên bằng PHP

Ngày tháng năm sinh là dữ liệu rất thú vị để thống kê các thay đổi về họ tên người, chẳng hạn như khuynh hướng tên có nhiều từ hơn, giảm đệm Văn, Thị, các tên mới xuất hiện, các tên dần kém phổ biến, vân vân. Cũng tương tự với họ tên, chúng ta cũng cần chuẩn hóa dữ liệu ngày tháng năm sinh. Người Việt Nam thường sử dụng cấu trúc viết ngày trước, rồi đến tháng và cuối cùng là năm sinh. Để phân tách giữa ngày tháng năm người ta dùng ký tự / Ví dụ …

Đọc thêm

Các câu lệnh php dùng để thống kê họ tên

Thống kê họ tên có mấy nhiệm vụ cơ bản sau: Phân loại theo giới tính: hiện nay vẫn chủ yếu là nam và nữ; Thống kê họ phổ biến: ví dụ Nguyễn, Trần, Lê; Thống kê tên phổ biến: trong 2 giới nam và nữ; Thống kê các đệm phổ biến: trong 2 giới nam và nữ; Thống kê các đệm đặc biệt như Văn trong nam, và Thị trong nữ; Thống kê số từ trung bình trong tên / phân loại theo giới tính; Thống kê số ký tự trung bình trong tên / phân loại theo giới …

Đọc thêm

Cách nhập bảng dữ liệu Excel sang MySQL

Giả sử bạn có bảng dữ liệu trên 1000 hàng, lúc này nhập thủ công vào MySQL sẽ rất mất thời gian. Hôm nay tôi sẽ chia sẻ với bạn cách làm đơn giản hơn rất nhiều. Bước 1: bạn up file Excel lên Google Drive, sử dụng Google bảng tính để hiển thị dữ liệu. Bước 2: kiểm tra lại dữ liệu, đặc biệt chú ý tên cột. Các cột dữ liệu phải có tên, nên để không dấu để việc nhập vào MySQL được dễ dàng. Ví dụ: hoten gioi Nguyễn Đức Anh nam Ngô Kiều Trang nữ …

Đọc thêm

Các hàm, câu lệnh PHP và SQL xử lý họ tên số lượng lớn

Môi trường hosting: VPS Vultr High Frequency + Plesk Web Admin SE miễn phí. Riêng về các ứng dụng PHP tự viết, Plesk có vẻ tốt hơn so với control panel có tên CyberPanel. Dữ liệu là Tên là tên khai sinh, không phải biết hiệu, bút danh,.v.v. Giả dụ tôi có database tên ducanh, user là nguyen, trong đó có bảng tennguoi cần xử lý dữ liệu. Bảng gồm các cột hoten (VARCHAR 100) cho họ tên; ngay (VARCHAR 50) cho ngày tháng năm sinh; gioi (VARCHAR 50) cho giới tính và thutu (INT) để làm khóa chính, tăng …

Đọc thêm

Tìm kiếm nâng cao trên Google: 42 toán tử bạn nên biết

Đối với bất kỳ ai đã làm SEO một thời gian, các toán tử nâng cao của Google – ví dụ như các câu lệnh đặc biệt, làm cho các tìm kiếm thông thường trông có vẻ buồn cười (khi so sánh chúng với nhau) – là câu chuyện không có gì mới cả. Dưới đây có thể là toán tử tìm kiếm Google bạn quen thuộc: Hầu hết các toán tử tìm kiếm tương đối dễ nhớ, vì chúng đều ngắn gọn. Nhưng để biết cách sử dụng chúng hiệu quả thì lại là một câu chuyện hoàn toàn …

Đọc thêm

Danh mục SEO

Tối ưu hóa database của WordPress theo cách thủ công

Có đôi điều tôi muốn nói về vấn đề CSDL (database) trong WordPress. Thứ nhất, quả thật đúng khi ai đó nói rằng: ngay cả những người có kinh nghiệm sử dụng WordPress và quan tâm đến tối ưu tốc độ cũng thường quên mất vấn đề này! Hai là: tối ưu hóa database bằng các công cụ tự động có nhiều tiện lợi, nhưng không phải là biện pháp đem lại hiệu quả cao nhất. Tôi từng rất vui mừng khi khám phá ra plugin chuyên sâu để tối ưu CSDL cho WordPress, nó có tên: Advanced Database Cleaner. Plugin này giúp phát hiện …

Đọc thêm

Cách tăng tốc website trong mùa đứt cáp quang

Các website đặt hosting ở nước ngoài thường gặp trải nghiệm tốc độ tồi tệ trong mùa đứt cáp quang. Trong bài viết này, tôi sẽ chia sẻ một số giải pháp giúp bạn cải thiện vấn đề này. Cách triệt để Chuyển hosting về Việt Nam, bạn có thể tìm trên mạng các công ty hosting tốt. Một số gợi ý bao gồm: vHost, Tinohost, Azdigi. Để thực hiện việc chuyển hosting nhanh gọn, bạn có thể tham khảo bài này. Các giải pháp khác nếu chuyển hosting về Việt Nam không khả thi Chuyển hosting về gần Việt …

Đọc thêm