Cập nhật Google Panda: Phân tích về người thắng và kẻ thua

bởi Nguyễn Đức Anh
người thắng và kẻ thua sau khi Google Panda cập nhật

Đến thời điểm này, tất cả mọi người làm SEO đều đã biết về cập nhật thuật toán của Google Panda diễn ra vào thứ 4, ngày 23, tháng 2, năm 2011. Một số bài đăng về chủ đề này rất đáng để đọc, chẳng hạn như bài của Danny Sullivan, Aaron Wall hay phân tích của SearchMetric và dữ liệu của Sistrix.

Với SEOmoz, chúng tôi vừa phân tích sự thay đổi với sự giúp đỡ từ những người bạn làm tại Distilled, nhân viên nghiên cứu khoa học Tiến sĩ Matt Peters (bạn có thể biết vị này nếu còn nhớ phân tích về Google Places và giờ ông đã làm nhân viên toàn thời gian tại MOZ – xin chào mừng!), và một số đóng góp từ những người khác.

Mặc dù không có cách nào biết được chính xác Google đã thay đổi điều gì dẫn đến tác động tới “11,8%” truy vấn, chúng tôi có một số ý tưởng phù hợp với con số mà dữ liệu chỉ ra và chúng tôi hy vọng có thể đóng góp vào thảo luận về chủ đề này cũng như giúp những người làm marketing liên quan đến tìm kiếm đánh giá được tác động của bản cập nhật lên website của họ.

Làm thế nào để biết được tác động của Google Panda lên website của bạn thông qua Google Analytics

Bước 1: Sử dụng tính năng so sánh ngày để xem cùng khoảng thời gian trước và sau cập nhật vào ngày thứ 4.

so sánh ngày tính năng của GA

Bước 2: Loại trừ lưu lượng do từ khóa “thương hiệu” – bạn không muốn các từ khóa kiểu này làm đẩy lên thông tin dữ liệu, bời vì chúng rất khó có khả năng bị ảnh hưởng:

lọc bỏ từ khóa thương hiệu

Bước 3: Kiểm tra biểu đồ so sánh lưu lượng truy cập:

kiểm tra biểu đồ so sánh lưu lượng truy cập

Bước 4: Loại bỏ so sánh để xem số lượng từ khóa:

xem số lượng từ khóa

Bước 5: Cũng kiểm tra thông tin đó, nhưng ở tuần trước:

số lượng từ khóa của tuần trước đó

Lưu ý một số từ khóa được áp dụng lọc – loại trừ các từ khóa thương hiệu, và chỉ sử dụng các từ khóa “không trả tiền (ý là không phải lưu lượng do quảng cáo từ khóa đem lại)”, và lựa chọn máy tìm kiếm Google (Bing không có cập nhật này). Bằng cách áp dụng quá trình này, bạn có thể kiểm tra xem website của bạn bị ảnh hưởng như thế nào. Các thông tin ở trên cho thấy SEOmoz hầu như không bị ảnh hưởng gì, giống như vài tuần trước đó, lưu lượng truy cập tìm kiếm tự nhiên từ Google của chúng tôi vẫn tăng tương tự như mô hình này.

Ai là người thua cuộc trong bản cập nhật Panda?

Nhờ một số bộ dữ liệu, chúng tôi có thể có được dữ liệu tốt về ai là người thắng và kẻ thua cuộc.

Đầu tiên là Sistrix, theo dõi 250 ngàn từ khóa trong Google tới 100 vị trí đầu tiên cho mỗi từ khóa:

#Tên miềnThay đổiSISTRIX (trước)SISTRIX (sau)# KWs (trước)# KWs (sau)
1wisegeek.com-77%121,5828,2274.02421.940
2ezinearticles.com-90%65,086,65184.50854.277
3suite101.com-94%54,043,28178.37336.904
4hubpages.com-87%55,167,40152.99850.178
5buzzle.com-85%43,256,5586.47224.423
6associatedcontent.com-93%38,292,57216.42953.512
7freedownloadscenter.com-90%30,263,0142.4867.992
8essortment.com-91%25,732,3227.5017.459
9fixya.com-80%28,785,8362.03436.167
10americantowns.com-91%24,882,1826.0009.799
11lovetoknow.com-83%25,754,2849.54417.833
12articlesbase.com-94%19,961,1682.27431.365
13howtodothings.com-84%21,203,3933.2227.601
14mahalo.com-84%20,493,2333.8759.740
15business.com-93%17,241,1321.5564.813
16doityourself.com-77%20,894,9023.2566.870
17merchantcircle.com-85%18,432,6793.34734.681
18thefind.com-83%18,953,2774.50645.495
19findarticles.com-90%16,981,7464.81020.189
20faqs.org-91%16,521,4633.64811.142
21tradekey.com-89%16,831,7937.36416.268
22answerbag.com-91%12,931,1167.31426.054
23trails.com-87%12,051,6238.3468.511
24examiner.com-79%10,542,1970.78131.272
25allbusiness.com-88%8,861,0816.4576.034

Tiếp theo là SearchMetrics, theo dõi gần 25 triệu từ khóa trong Google:

Tên miềnOPI_todayOPI_lastThay đổiTính theo %
blippr.com11,024529,970-518,946-97.9%
suite101.com19,874263,529-243,655-92.5%
tradekey.com2,97038,237-35,267-92.2%
associatedcontent.com23,687281,343-257,656-91.6%
articlesbase.com13,492157,958-144,466-91.5%
helium.com7,17083,184-76,014-91.4%
faqs.org15,971140,951-124,980-88.7%
freedownloadscenter.com23,216192,128-168,912-87.9%
mahalo.com56,305442,563-386,258-87.3%
allbusiness.com2,69419,995-17,301-86.5%
ezinearticles.com35,691259,516-223,825-86.2%
essortment.com13,50793,993-80,486-85.6%
americantowns.com6,10938,783-32,674-84.2%
findarticles.com11,64870,404-58,756-83.5%
howtodothings.com10,60562,372-51,767-83.0%
lovetoknow.com30,289157,037-126,748-80.7%
hubpages.com122,796618,406-495,610-80.1%
wisegeek.com113,436489,014-375,578-76.8%
buzzle.com78,206335,304-257,098-76.7%
doityourself.com8,06933,231-25,162-75.7%
merchantcircle.com20,19583,133-62,938-75.7%
business.com10,96142,877-31,916-74.4%
thefind.com13,10746,769-33,662-72.0%
trails.com9,60732,385-22,778-70.3%

Như bạn có thể thấy, có khá nhiều giao thoa giữa hai nguồn dữ liệu về những trang mất một lượng truy cập đáng kể, và tôi cho rằng cả hai nguồn dữ liệu ít nhất cũng đúng ở khía cạnh: các trang web trong danh sách đã mất lưu lượng truy cập sau cập nhật Google Panda. Lưu ý rằng cả hai đều có các cách tính riêng về điểm số “hiển thị” dựa trên thứ hạng của mỗi website, bên cạnh đó là sự khác biệt về số lượng từ khóa mà họ theo dõi, dẫn đến việc chúng không có sự giao thoa (trùng khớp) hoàn hảo.

Thế ai là người chiến thắng trong cập nhật Google Panda?

Một lần nữa, chúng tôi lấy một số dữ liệu từ Sistrix:

người chiến thắng sau cập nhật Google Panda

Và từ SearchMetrics:

Tên miềnOPI_todayOPI_lastKhác biệt%
wikihow.com455,031254,087200,94479.1%
answers.yahoo.com524,056406,523117,53328.9%
ehow.com944,950831,961112,98913.6%
howstuffworks.com666,073574,52391,55015.9%
huffingtonpost.com1,262,5621,173,22989,3337.6%
facebook.com3,157,4063,094,80462,6022.0%
instructables.com80,14268,68511,45716.7%

Dữ liệu này được chọn lọc nhiều hơn từ SearchMetrics (họ dường như loại bỏ rất nhiều người chiến thắng – có thể đó là khách hàng nên họ không muốn lộ dữ liệu?), và Wikihow khiến tôi tò mò vì nó xuất hiện với các thông số nổi bật trong thang đo này, nhưng lại không xuất hiện trong danh sách của Sistrix.

Việc xem xét những trang chiến thắng này và so sánh chúng với những trang thất bại sẽ gợi ý một số nguyên nhân tiềm năng, đây là điều chúng ta sẽ thảo luận nhiều hơn bên dưới.

Một số yếu tố có thể là nguyên nhân dẫn đến việc tụt thứ hạng?

Khi đánh giá một số website bị ảnh hưởng xấu, chúng tôi đã phát hiện ra một vài nguyên nhân tiềm năng khá thú vị có thể là thủ phạm.

trang eHow và EzineArticles

Trang eHow ở bên trái và trang EzineArticles ở bên phải

  1. Dường như là các trang có ít quảng cáo xâm nhập / làm phiền (intrusive blocks of  advertisements) có xu hướng là người dành chiến thắng, trong khi các trang có nhiều khối quảng cáo xâm nhập có xu hướng là kẻ thất bại.
  2. Tương tự như vậy, các trang có giao diện người dùng (UI) mà có khả năng được mô tả là hiện đại, chất lượng, chỉn chu và “hấp dẫn” hơn thường là người chiến thắng các website “xấu xí”.
  3. Khi đề cập đến các website mà nội dung do người dùng tạo (UGC / user-generated-content), những trang có xu hướng thu hút đóng góp sơ sài (thin contributions) chẳng hạn như EzineArticles, Hubpages hoặc Buzzle thì thất bại, trong khi những website phong phú hơn, thường có thẩm quyền hơn, không phải trả tiền và không có xu hướng xây dựng chỉ vì SEO hoặc liên kết có xu hướng giành chiến thắng, chẳng hạn như Etsy, DailyMotion, Linkedln, Facebook.
  4. Khi đề cập đến các trang có “nội dung phong phú”, những nội dung mà ít hữu dụng, khó đọc có xu hướng là kẻ thua cuộc (chẳng hạn như AllBusiness, FindArticles), còn những trang mà nội dung có khả năng được sử dụng nhiều hơn (more usable) thì giành chiến thắng (chẳng hạn như LOC.gov, HuffingtonPost)

Bên cạnh đó, chúng tôi có một số phỏng đoán về các tín hiệu mà Google có thể sử dụng trong bản cập nhật này:

  • Dữ liệu người dùng (user data) – các tín hiệu như CTR (click-through-rate), thời gian trên trang (time-on-site), mức độ “thành công” của lượt truy cập tìm kiếm (dựa trên các dữ liệu người dùng khác).
  • Người đánh giá chất lượng (quality raters) – một thuật toán dạng máy học có thể được áp dụng lên người đánh giá chất lượng website là thích hoặc không thích để xây dựng các yếu tố làm đẩy thứ hạng các trang được “thích” và làm tụt hạng các trang “không được thích”. Đây có thể là cách làm nguy hiểm để xây dựng thuật toán, bởi vì không người nào có thể thực sự nói ra được tại sao một trang lại được xếp hạng cao hơn hoặc thấp hơn hoặc các yếu tố đó là gì (ý là việc thích hoặc không thích nhiều khi chỉ dựa vào cảm tính) – chúng có thể dẫn đến các điểm dữ liệu kỳ lạ hơn là một cơ chế có thể giải thích được.
  • Phân tích nội dung (content analysis) – các thuật toán mô hình chủ đề, tính toán khả năng dễ đọc (readability), phân tích tính độc đáo (uniqueness) và có thể thậm chí là sức hấp dẫn trực quan của nội dung trình bày cũng có thể được sử dụng (hoặc các tín hiệu khác phù hợp với những điều này).

Các phân tích chi tiết hơn, vào từng trang cụ thể thắng và thua có thể giúp chúng ta có cái nhìn rõ hơn về chúng.

(Lược dịch từ bài viết Google’s Farmer/Panda Update: Analysis of Winners vs. Losers của tác giả Rand Fishkin, website: MOZ)

0 bình luận

Khu vực bình luận

avatar