Google làm rõ hơn về cách làm việc của Hệ thống Nội dung Hữu ích

Google SearchLiaison đã làm rõ một đoạn văn khó hiểu trong hướng dẫn Hệ thống Nội dung Hữu ích (Helpful Content System) của họ, đoạn văn này dường như có tiềm năng gây ra vấn đề không mong muốn cho các nhà xuất bản vô tội.

Hệ thống Nội dung Hữu ích

Hệ thống Nội dung Hữu ích của Google dựa trên một mô hình máy học (machine learning model) sử dụng các bộ phân loại (classifiers) để tạo ra một tín hiệu, sau đó tín hiệu này được hệ thống xếp hạng (ranking system) của Google sử dụng để loại bỏ nội dung chất lượng thấp.

Bộ phân loại là một thuật toán trong mô hình máy học gán nhãn cho một đầu vào. Trong ngữ cảnh của Hệ thống Nội dung Hữu ích, mô hình máy học đang gán nhãn cho nội dung website, từ đó tạo ra một tín hiệu, giống như một dấu tay cái trỏ xuống dưới (thumbs-down, ý là tín hiệu xấu về chất lượng / có ngoại hình giống nút dislike).

Tín hiệu này cũng được đánh trọng số, có nghĩa là một site chỉ có một chút nội dung không hữu ích sẽ nhận được dấu tay cái trỏ xuống ít hơn so với một site có nhiều nội dung không hữu ích.

Hệ thống Nội dung Hữu ích tạo ra một tín hiệu, đây là một trong hàng trăm hoặc hàng nghìn tín hiệu khác được sử dụng để xếp hạng một site (như liên kết, độ liên quan, v.v.).

Hướng dẫn của Google vô tình khá mờ mịt

Google đã cập nhật hướng dẫn của họ cho Hệ thống Nội dung Hữu ích trong phiên bản mới nhất, nhằm giúp nó giải thích rõ ràng hơn về tín hiệu này, và để các nhà xuất bản cũng như người làm SEOs có thể hiểu tại sao website mất xếp hạng.

Từ “mờ mịt” có nghĩa là một thứ thiếu sự rõ ràng hoặc minh bạch. Và không may có một phần của hướng dẫn đó dường như vô ý bị mờ mịt và do đó gây rối rắm cho mọi người.

Đây là đoạn văn đang được đề cập:

“Bạn có đang thay đổi ngày của các trang để làm cho chúng trông mới mẻ khi nội dung không thay đổi đáng kể không?”

Đoạn văn này nhắm vào một số người dùng đang cố gắng lợi dụng thuật toán tươi mới (freshness) của Google bằng cách thực hiện một thay đổi tương đối nhỏ cho nội dung sau đó cập nhật ngày xuất bản để lừa Google nghĩ rằng nội dung cũ là một trang được xuất bản mới.

Nhưng vấn đề là nhiều người thực hiện những thay đổi nhỏ cho nội dung để:

  • Sửa lỗi chính tả.
  • Thay thế hoặc thêm một từ để làm cho nó đúng ngữ pháp hoặc rõ ràng hơn.
  • Thay đổi từ để làm cho nội dung rõ ràng hơn.

Có nhiều thay đổi nhỏ nhưng hợp lệ mà nhiều người thực hiện cho nội dung.

Hướng dẫn này có vẻ như cấm việc thực hiện những thay đổi nhỏ dẫn đến thay đổi ngày, nó tạo ra tình huống mà một cải tiến nhỏ bây giờ có khả năng đóng góp vào đánh giá tiêu cực từ Hệ thống Nội dung Hữu ích.

Đây chính xác là vấn đề được đưa ra trên X (trước đây là Twitter).
Luke Jordan (@lr_jordan) đã chia sẻ mối quan tâm hợp lệ của họ:

“Google không hiểu đủ rõ về sắc thái để đưa ra quy tắc chung.

Nó đang phạt các trang web vì sử dụng ngày ‘cập nhật cuối cùng’ cho những thay đổi “nhỏ”.

Nhưng trong lĩnh vực game, một bản vá/cập nhật có thể đơn giản như việc nâng cấp mà trước đây tốn 6 điểm giờ đây tốn 5 điểm.

Và sự tăng nhỏ như vậy có thể thay đổi nhiều về tính hữu ích của nó.

Người dùng sẽ muốn biết bài đăng được cập nhật và do đó nó có liên quan, vì vậy họ sẽ tham khảo ngày và phiên bản vá.

Một bản cập nhật thực sự có giá trị có thể đòi hỏi thay đổi số 6 thành 5, và phiên bản vá từ 9.0.1 thành 9.0.2.

Nếu ngày cho biết hướng dẫn được cập nhật cuối cùng là từ 6 tháng trước, điều đó không có ý nghĩa.

Thêm vào đó, ngày (đã lỗi thời) xuất hiện trong kết quả tìm kiếm của Google, vì vậy mọi người sẽ ít nhấp vào nó hơn, với CTR là một yếu tố xếp hạng khác”.

Google SearchLiaison đã phản hồi:

“Không, chúng tôi không làm điều này nếu các cập nhật được thực hiện để hữu ích cho mọi người.

Không phải điều chúng tôi nói.

Không nằm trong hướng dẫn của chúng tôi.”

SearchLiaison đúng nhưng do sự mờ mịt của đoạn văn đó, nó có vẻ như nói những gì mà Luke Jordan đang nghĩ.

Luke tiếp tục:

“Vậy, để xác nhận, liệu bạn có biết một sự thay đổi nhỏ trong bài viết được thiết kế để hỗ trợ người dùng không?”

Có một bài đăng thêm từ Luke, đi kèm với một bức ảnh chụp màn hình của đoạn trong hướng dẫn:

“Vì nguyên tắc của bạn theo đúng nghĩa đen là bạn không nên thay đổi ngày (xuất bản) của trang khi nội dung không thay đổi đáng kể.”

SearchLiaison trả lời:

“Ngữ cảnh của những câu hỏi đó là nếu bạn đang làm gì đó chỉ cho riêng Google.

Nếu bạn chỉ thay đổi ngày vì bạn nghĩ “điều đó sẽ khiến Google nghĩ rằng đây là nội dung mới,” bạn có thể đang đi đúng hướng với những hành vi khác mà tổng thể phù hợp với những tín hiệu mà chúng tôi sử dụng để xác định mức độ hữu ích của nội dung.

Nó không chỉ là một thứ. Nó không trực tiếp.

Và đó không phải là vấn đề nếu bạn không làm những việc ấy chủ yếu cho Google.”

Đi đúng hướng với những hành vi khác

Những gì SearchLiaison dường như đang nói là tác vụ thay đổi ngày chỉ là một trong nhiều tác vụ mà mô hình máy học sử dụng để tính toán xác suất thống kê rằng website đang sử dụng tác vụ SEO chỉ cho Google thay vì làm gì đó để tạo ra nội dung hữu ích và hữu dụng.

Có một điều về thống kê (statistics) là nếu bạn chỉ sử dụng một chỉ số duy nhất, mô hình thống kê sẽ đưa ra quyết định sai.

Đó là lý do tại sao trong các mô hình thống kê liên quan đến tìm kiếm, việc sử dụng nhiều tín hiệu cùng nhau để tính xác suất thống kê sẽ chính xác hơn so với việc chỉ sử dụng một tín hiệu (chỉ số).

Nếu bạn mới biết về điều đó, hãy xem PDF này về hệ thống xác định spam thống kê kết hợp nhiều tính năng như on-page, off-page và chỉ số tương tác người dùng để đưa ra phân loại liệu một website có phải là spam hay không.

Không muốn “nhét chữ” vào câu trả lời của SearchLiaison, nhưng có vẻ như họ đang ngụ ý rằng việc chỉ làm một điều gì đó có thể là dấu hiệu của sự không hữu ích chưa đến mức (ngưỡng) để đánh dấu site là không hữu ích khi không có thêm tín hiệu tiêu cực khác.

Đây là những gì SearchLiaison nói:

“Nếu bạn chỉ thay đổi ngày vì bạn nghĩ “điều đó sẽ khiến Google nghĩ rằng đây là nội dung mới,” bạn có thể đang đi đúng hướng với những hành vi khác mà tổng thể phù hợp với những tín hiệu mà chúng tôi sử dụng để xác định mức độ hữu ích của nội dung.”

Rất tốt khi SearchLiaison đã làm rõ điểm này bởi vì tôi cũng cảm thấy đoạn trích dường như quá rộng và có thể dẫn đến kết quả dương tính giả (khi một trang web vô tội bị phân loại là spam).

(Trích dịch từ bài viết của tác giả Roger Montti, trên trang Search Engine Journal)

Viết một bình luận