Categories SEO

Các trang web spam [Đánh giá chất lượng tìm kiếm]

EEAT 08

Link tải Ebook tiếng Việt: Nguyên Tắc Cho Người Đánh Giá Kết Quả Tìm Kiếm, phần 1. Ebook này bao gồm nội dung bên dưới và các phần khác.

4.6 Các trang web spam

Các trang và website phải tồn tại vì lợi ích của những người truy cập. Có nhiều loại trang web có thể mang lại lợi ích cho khách truy cập, chẳng hạn như dịch vụ ngân hàng hoặc mua sắm trực tuyến, video giải trí hoặc trang cá nhân chia sẻ quan điểm hoặc trải nghiệm. Một số trang này phụ thuộc vào quảng cáo và kiếm tiền để duy trì website và tạo nội dung chất lượng cao trong khi vẫn mang lại lợi ích cho khách truy cập.

Tuy nhiên, một số trang được tạo ra chỉ để mang lại lợi ích cho chủ sở hữu website hoặc các tổ chức khác và ít hoặc không chú ý gì đến trải nghiệm của những người truy cập. Khi các trang như vậy sử dụng kỹ thuật lừa đảo để xuất hiện ở gần đầu kết quả tìm kiếm (tức là có thứ hạng cao), điều đó có thể làm giảm động lực (của các chủ website khác) trong việc tạo nội dung chất lượng cao bằng cách lấn át các trang được tạo bằng nỗ lực, tính độc đáo, tài năng hoặc kỹ năng hữu ích cho khách truy cập.

Phần này mô tả các đặc điểm của các trang spam hoặc giống spam cần được xếp hạng Thấp nhất. Phần Google Search Essentials Guideline (Các Nguyên tắc cơ bản của Google tìm kiếm) là tài liệu tham khảo tốt cho những người không-phải-là-chủ-sở-hữu-website muốn tìm hiểu thêm về các kỹ thuật spam khác. Nếu bạn nhận ra bất kỳ kỹ thuật spam nào trên một trang, vui lòng sử dụng xếp hạng Thấp nhất.

Bạn không cần phải phát triển chuyên môn về nhận dạng spam hoặc sử dụng các công cụ nhận dạng spam chuyên biệt để xếp hạng PQ. Vui lòng xem lại phần này để được hướng dẫn về những gì cần tìm, quan sát ngay cả khi không có những công cụ hoặc kiến thức chuyên môn như vậy.

4.6.1 Không xác định được mục đích, không có MC, MC quá ít, hoặc MC kém chất lượng nhất

Tất cả các trang phải được tạo với chất lượng MC vừa đủ để trang có thể đạt được mục đích của mình. Tuy nhiên, một số trang thiếu MC đến mức mục đích của trang đó không rõ ràng hoặc bạn có thể nghi ngờ trang này thực sự không được tạo ra cho người dùng.

Nếu bất kỳ điều nào sau đây là đúng thì trang đó sẽ được xếp hạng Thấp nhất:

  • Bất chấp những nỗ lực hết mình của bạn, bạn vẫn không thể thực sự hiểu được mục đích của trang vì MC vô nghĩa hoặc không thể sử dụng được cho mọi người.
  • Trang cố tình không có MC.
  • Trang được cố tình tạo ra với quá ít MC nên không thể đạt được bất kỳ mục đích nào.
  • Trang này được cố tình tạo ra với MC chất lượng thấp đến mức không đạt được bất kỳ mục đích nào.

4.6.2 Các trang bị tấn công, phá hoại hoặc bị spam

Site bị tấn công hoặc bị sửa đổi mà không có sự cho phép của (các) chủ sở hữu website.

Các website có thể bị tấn công, sửa đổi hoặc chứa một lượng lớn nội dung gây mất tập trung và không hữu ích từ những kẻ xấu. Kẻ xấu có thể thêm MC hoặc SC không liên quan hoặc có thể sửa đổi MC hiện có trên các trang web để thay đổi mục đích của trang.

Những trang này nên được xếp hạng Thấp nhất vì chúng không đạt được mục đích ban đầu. Chủ sở hữu website có trách nhiệm nên thường xuyên kiểm tra website của mình để phát hiện hành vi đáng ngờ và thực hiện các bước để bảo vệ người dùng.

Một vấn đề phổ biến trên các trang diễn đàn hoặc trong phần bình luận của trang là các bình luận “spam”: các bài đăng có bình luận không liên quan, không nhằm mục đích giúp đỡ người khác mà nhằm mục đích quảng cáo sản phẩm hoặc tạo liên kết đến một website khác. Thông thường những bình luận này được đăng bởi một công cụ tự động (bot) chứ không phải một người thực sự. Nếu một trang cụ thể trên một website có các bình luận spam không liên quan, trang cụ thể đấy phải được xếp hạng Thấp nhất.

4.6.3 MC được tạo tự động

Tạo nhiều nội dung mà không tốn nhiều công sức hoặc không có giá trị độc đáo, không cần chỉnh sửa hoặc quản lý thủ công thường là đặc điểm dùng để xác định của các website spam. Một cách để tạo ra website dạng này là sử dụng nội dung “được tạo tự động”.

Có thể tạo nhiều trang hoặc thậm chí toàn bộ website bằng cách thiết kế một mẫu cơ bản, rồi từ đó tạo ra hàng trăm hoặc hàng nghìn trang, đôi khi sử dụng nội dung từ các nguồn có sẵn miễn phí (chẳng hạn như nguồn cấp dữ liệu RSS hoặc API). Những trang này được tạo ra với rất ít nỗ lực và ít hoặc không cần chỉnh sửa hoặc quản lý thủ công. Sẽ có rất ít giá trị từ các trang đóng gói lại nội dung có sẵn miễn phí và ít chú ý hoặc không chú ý gì đến trải nghiệm của những người truy cập trang (xem ở đây để biết thêm thông tin về nội dung được tạo tự động).

Thông thường, cách dễ dàng nhất để nhận ra nội dung được tạo tự động là nhấp vào nhiều trang trên một website và quan sát nội dung “theo mẫu”. Có thể khó nhận ra nội dung được tạo tự động từ một trang duy nhất, vì vậy hãy nhớ khám phá website nếu bạn nghi ngờ nội dung đó được tạo theo mẫu.

Các trang và website có nội dung được tạo tự động không đi kèm với việc chỉnh sửa hoặc tuyển chọn thủ công, cũng như không có nội dung gốc hoặc giá trị gia tăng cho người dùng nên được xếp hạng Thấp nhất.

4.6.4 Sao chép MC không có giá trị gia tăng

Một cách khác để tạo ra nhiều nội dung mà không tốn nhiều công sức hoặc đóng góp giá trị độc đáo là sao chép nội dung từ một nguồn khác. Từ “copied” đề cập đến hành vi “scraping” nội dung hoặc sao chép nội dung từ các website (không phải dạng tiếp thị liên kết) khác mà không thêm bất kỳ nội dung hoặc giá trị gốc nào cho người dùng (xem thêm ở đây để biết thêm thông tin về nội dung được sao chép hoặc cóp nhặt).

Mọi loại nội dung đều có thể được sao chép: văn bản, hình ảnh, video, v.v. Hình ảnh có thể bị cắt hoặc chỉnh sửa một chút để tránh bị phát hiện. Mọi người cũng có thể thay đổi video hoặc thậm chí tạo video về màn hình đang phát video! Nội dung sao chép không có giá trị gia tăng nên được xếp hạng chất lượng Thấp nhất.

Đôi khi nội dung được “nhúng” hoặc đưa vào trang từ một nguồn khác. Không có gì sai khi nhúng nội dung, nhưng xếp hạng Thấp nhất sẽ được áp dụng nếu không có nội dung gốc hoặc giá trị gia tăng đáng kể trên trang.

Tương tự, các bài đăng trên mạng xã hội có thể được đăng lại bởi một tài khoản không liên quan. Không có gì sai khi đăng lại nội dung, nhưng xếp hạng Thấp nhất sẽ được áp dụng nếu không có giá trị gia tăng dưới dạng nội dung, bối cảnh hoặc thảo luận bổ sung.

Các trang được tạo chỉ bằng nội dung được sao chép, nhúng hoặc đăng lại mà không có sự chỉnh sửa hoặc quản lý thủ công nào là thiếu nỗ lực và độc đáo. Giống như nội dung được tạo tự động, những kỹ thuật này có thể được sử dụng để tạo nhiều trang hoặc thậm chí toàn bộ website. Vì lý do này, cách dễ dàng nhất để nhận ra các trang được tạo chỉ bằng nội dung được sao chép, nhúng hoặc đăng lại là khám phá nhiều trang trên website đó.

Xếp hạng Thấp nhất là phù hợp nếu tất cả hoặc gần như toàn bộ MC trên trang (bao gồm văn bản, hình ảnh hoặc video) được sao chép, nhúng hoặc đăng lại mà không tốn nhiều công sức, tính độc đáo, tài năng, kỹ năng, tuyển chọn thủ công hoặc giá trị gia tăng cho người dùng. Những trang như vậy phải được xếp hạng Thấp nhất, ngay cả khi trang đó để tại credit, ghi nhận nội dung được lấy từ một nguồn khác.

Tất cả những điều sau đây được coi là nội dung sao chép:

  • Nội dung được sao chép, đăng lại hoặc nhúng chính xác từ một nguồn có thể xác định được. Đôi khi toàn bộ trang được sao chép và đôi khi chỉ một phần của trang được sao chép. Đôi khi nhiều trang được sao chép và sau đó tập hợp lại với nhau thành một trang duy nhất. Nội dung đã được sao chép, đăng lại hoặc nhúng chính xác thường là loại nội dung sao chép dễ xác định/phát hiện nhất.
  • Nội dung được sao chép nhưng có chút thay đổi so với bản gốc. Kiểu sao chép này gây khó khăn cho việc tìm nguồn gốc trùng khớp chính xác. Đôi khi chỉ một vài từ được thay đổi hoặc toàn bộ câu được thay đổi hoặc một sửa đổi kiểu “find and replace” được thực hiện, trong đó một từ được thay thế bằng một từ khác trong toàn bộ văn bản. Hình ảnh có thể bị cắt hoặc video có thể được chia thành các đoạn ngắn hơn. Những loại thay đổi này được thực hiện có chủ ý nhằm gây khó khăn cho việc tìm ra nguồn gốc của nội dung. Chúng tôi gọi loại nội dung này là “được sao chép với sự thay đổi tối thiểu”.
  • Nội dung được sao chép từ một nguồn thay đổi, chẳng hạn như trang kết quả tìm kiếm hoặc nguồn cấp tin tức. Bạn thường không thể tìm thấy nguồn gốc phù hợp chính xác nếu đó là bản sao của nội dung “dynamic / động” (nội dung thay đổi thường xuyên). Tuy nhiên, chúng ta vẫn sẽ coi đây là nội dung sao chép.

Quan trọng: Nội dung được cấp phép hoặc syndicated không được coi là “được sao chép” (xem thêm để biết thêm về syndicated trên web). Ví dụ về nội dung được syndicated ở Hoa Kỳ bao gồm các bài báo của AP hoặc Reuters.

4.6.5 Cách xác định xem nội dung có bị sao chép hay không

Làm thế nào để bạn xác định liệu tất cả hay hầu hết MC được sao chép? Làm thế nào để bạn xác định nguồn gốc của nội dung? Những điều này có thể khó xác định, nhưng các bước sau đây có thể hữu ích.

  1. Sao chép một câu hoặc cụm từ trong văn bản. Có thể cần phải thử một vài câu hoặc cụm từ trong trang để chắc chắn. Khi quyết định sao chép câu hoặc cụm từ nào, hãy cố gắng tìm một câu hoặc một chuỗi nhiều từ không có dấu câu, ký tự bất thường hoặc những từ đáng ngờ có thể đã được thay thế trong văn bản gốc.
  2. Tìm kiếm trên Google bằng cách dán câu hoặc cụm từ (được bao quanh bởi dấu nháy kép để tìm kiếm kết quả khớp chính xác) bên trong hộp tìm kiếm của Google. Bạn cũng có thể thử không có dấu nháy kép để tìm kiếm các kết quả tổng quát hơn.
Tìm kiếm trên Google để phát hiện nội dung sao chép

Dưới đây là một số câu và cụm từ về bộ phim “The Wizard of Oz” và cách tìm kiếm chúng.

Câu hoặc cụm từ từ một câu Truy vấn để tìm câu hoặc cụm từ
Một câu trên trang:
Tất cả đều được Dorothy thuyết phục rằng Pháp sư cũng có thể giúp họ

Hãy thử truy vấn có cả dấu nháy kép và không có dấu nháy kép xung quanh câu:

[“Tất cả đều được Dorothy thuyết phục rằng Pháp sư cũng có thể giúp họ”]

[ Tất cả đều được Dorothy thuyết phục rằng Pháp sư cũng có thể giúp họ]
Một cụm từ trên trang:
Dorothy sử dụng Mũ vàng để triệu hồi Khỉ có cánh
Hãy thử truy vấn có cả dấu nháy kép và không có dấu nháy kép xung quanh câu:

[“Dorothy sử dụng Mũ vàng để triệu hồi Khỉ có cánh”]

[ Dorothy sử dụng Mũ Vàng để triệu hồi Khỉ có cánh]
Một cụm từ khác trên trang:
tiết lộ một ông già đã du hành đến Oz từ Omaha cách đây rất lâu trên khinh khí cầu

/Size..Size..Size..Size..Size..Size/
Hãy thử truy vấn có cả dấu nháy kép và không có dấu nháy kép xung quanh câu:

[“tiết lộ một ông già đã du hành đến xứ Oz từ Omaha cách đây rất lâu trên khinh khí cầu”]

[tiết lộ một ông già đã du hành đến xứ Oz từ Omaha cách đây rất lâu bằng khinh khí cầu]

/Size..Size..Size..Size..Size..Size/
  1. So sánh các trang bạn tìm thấy phù hợp với câu hoặc cụm từ. Hầu hết MC của chúng có giống nhau không? Nếu vậy, liệu nguồn đó có rõ ràng đến từ một nguồn có thẩm quyền cao, nổi tiếng về việc tạo nội dung gốc (báo, tạp chí, tổ chức y tế, v.v.) không? Có nguồn nào có vẻ hợp lý là nguồn gốc không? Có nguồn nào có ngày xuất bản sớm nhất, được xác minh bởi các công cụ như Wayback Machine {{Chú thích của người biên tập: một dạng lưu trữ dữ liệu quá khứ, giống kiểu máy thời gian của Doraemon}} không?

Sử dụng phán đoán tốt nhất của bạn. Đôi khi rõ ràng là nội dung được sao chép từ đâu đó nhưng bạn không thể biết được nguồn gốc là gì. Đôi khi, nội dung tìm thấy trên nguồn ban đầu đã thay đổi đến mức việc tìm kiếm câu hoặc cụm từ có thể không còn khớp với nguồn ban đầu nữa. Ví dụ: các bài viết trên Wikipedia có thể thay đổi đáng kể theo thời gian. Văn bản sao chép từ bản sao cũ có thể không khớp với nội dung hiện tại. Nếu bạn thực sự nghi ngờ trang bạn đang đánh giá không phải là nguồn gốc, hãy xem xét khả năng trang đó đã được sao chép.

Dựa trên phiên bản cũ hơn của bài trên Wikipedia về chủ đề “The Wizard of Oz” có thể được tìm thấy bằng cách sử dụng công cụ Internet Archive Wayback Machine, chúng tôi có thể xác nhận rằng văn bản trong bảng đã được sao chép. Xin lưu ý rằng việc tìm kiếm câu và cụm từ trên sẽ không dẫn bạn đến bài viết Wikipedia hiện tại về “The Wizard of Oz”, minh họa này cho thấy đôi khi việc xác nhận rằng MC của một trang có chứa nội dung sao chép có thể khó khăn như thế nào.

Quan trọng: Xếp hạng Thấp nhất là phù hợp nếu tất cả hoặc gần như toàn bộ MC trên trang được sao chép mà không tốn nhiều công sức, quản lý thủ công hoặc mang lại giá trị gia tăng cho người dùng. Những trang như vậy phải được xếp hạng Thấp nhất, ngay cả khi trang đó dẫn nguồn (credit) nội dung cho một website khác {{Chú thích thêm: mà có thể là nguồn mà trang đó copy về}}.

(Nội dung gốc: trang 38 – 41 trong Nguyên tắc cho người đánh giá kết quả tìm kiếm)

Bài trước >>> Các website hoặc trang không đáng tin cậy [Đánh giá chất lượng tìm kiếm]

Bài tiếp >>> Ví dụ về các trang có chất lượng thấp nhất [Đánh giá chất lượng tìm kiếm]

Lưu ý: bản dịch đã được kiểm tra để hạn chế sai sót, nhưng tôi không đảm bảo nó chính xác 100%. Vui lòng đối chiếu với nội dung gốc tiếng Anh khi cần thiết.

Back to Top