Cách tính PageRank – món đồ cổ giá trị trong SEO

bởi Nguyễn Đức Anh
cách tính PageRank

Giới thiệu

PageRank là chủ đề được thảo luận rất nhiều trong cộng đồng những người làm SEO chuyên nghiệp (SEO experts). Cốt lõi của PageRank là một công thức toán học (mathematical formula), mà khi nhìn vào, nó dường như làm mọi người sợ hãi, nhưng thực ra PageRank lại khá dễ hiểu.

Dù vậy, nhiều người dường như đã hiểu sai! Một ví dụ cụ thể là “Chris Ridings của trang www.searchenginesystems.net” đã viết một bài báo có tiêu đề “Giải thích PageRank: Mọi thứ bạn cần biết về PageRank”. Nhiều người đã chỉ ra rằng, bài báo chứa một sai lầm cơ bản ngay trong phần giải thích! Không may, điều này có nghĩa là một số lời khuyên trong bài viết đó không hoàn toàn chính xác.

Bằng cách trình bày mã chạy chính xác để tính toán PageRank thực(*), tôi hy vọng đạt được một số mục tiêu trong bài viết này:

  1. Giải thích rõ ràng cách tính PageRank
  2. Lấy các ví dụ trong bài viết của Chris và bổ sung thêm thông tin của tôi, đưa ra giá trị PageRank chính xác cho mỗi biểu đồ. Bằng cách trình bày mã sử dụng để tính toán mỗi biểu đồ, tôi thoải mái đón nhận các đánh giá của mọi người – chủ yếu là trong nỗ lực nhằm đảm bảo các ví dụ là chính xác, ngoài ra cũng là vì đoạn mã có thể giúp giải thích cách tính PageRank
  3. Mô tả một số nguyên tắc và quan sát về thiết kế website dựa trên các ví dụ được tính toán chính xác.

(*): Tác giả lập trình đoạn mã chạy kết quả PageRank cho từng vòng lặp. Rất tiếc là các đoạn mã giờ đã không còn để chúng ta kiểm tra. Nội dung gốc tiếng Anh của bài này được viết vào năm 2012 (có thể còn trước đó nữa). Bài viết của Chris Ridings được viết vào năm 2002 – chú thích của người dịch.

Bất kỳ nhà thiết kế website giỏi nào cũng cần bỏ thời gian để hiểu rõ cách PageRank hoạt động thực sự như thế nào – nếu bạn không để ý, bố cục trang web (site’s layout) của bạn có thể làm tổn thương vị trí của trang trên Google!

[Lưu ý: Tôi không có bất kỳ mâu thuẫn cá nhân nào với Chris. Nếu tôi tìm được bất kỳ bài báo nào khác về chủ đề này, tôi cũng sẽ nhận xét như vậy thôi.]

PageRank được sử dụng như thế nào?

PageRank là một trong các phương pháp Google sử dụng để xác định mức độ liên quan hoặc tầm quan trọng của một trang (page’s relevance or importance). Nó chỉ là một phần của câu chuyện khi đề cập đến danh sách kết quả trả về của Google (Google listing), nhưng các khía cạnh khác đã được thảo luận ở bài khác (và luôn thay đổi) và PageRank đủ thú vị để có một bài viết dành riêng cho nó.

PageRank cũng được hiển thị (**) trên thanh công cụ của trình duyệt nếu bạn cài Google toolbar (https://toolbar.google.com/). Nhưng thanh công cụ của PageRank chỉ hiển thị giá trị từ 0 đến 10 và nó dường như là thang đo được tính dưới dạng logarithmic:

Thanh công cụ PageRank (dựa trên log 10)Giá trị PageRank thực
00 – 10
110 – 1000
21000 – 10 000
310 000 – 100 000
4và cứ tiếp tục theo số mũ như vậy

(**): Vào năm 2016, Google đã loại bỏ hoàn toàn thanh công cụ này, một trong các lý do (dù không được tuyên bố chính thức) là thông số này dễ bị lạm dụng vào việc mua bán liên kết và do đó kết quả tìm kiếm có khả năng bị thao túng – chú thích của người dịch

Chúng ta không thể biết chi tiết chính xác của thang đo này, bởi vì như chúng ta sẽ thấy sau này rằng giá trị lớn nhất PR của tất cả các trang trên web thay đổi mỗi tháng khi Google cập nhật lại chỉ mục (re-indexing) của họ! Nếu chúng ta giả định thang đo là logarithmic (mặc dù chỉ có một số bằng chứng không rõ ràng cho điều này tại thời điểm bài gốc tiếng Anh này được viết), sau đó Google có thể đơn giản là gán trang thực có PR cao nhất là 10 trên thanh công cụ và chấm điểm phần còn lại một cách thích hợp.

Thậm chỉ đôi khi thanh công cụ cũng đoán giá trị mà thôi! Thanh công cụ thường hiển thị PR cho các trang tôi mới chỉ vừa tải lên, và các trang đó không thể được lập chỉ mục ngay lúc đấy được!

Điều dường như đang xảy ra là thanh công cụ nhìn vào URL của trang mà trình duyệt hiển thị và loại bỏ tất cả mọi thứ nằm sau dấu “/” (có nghĩa là nó chỉ đến trang “cha” trong thuật ngữ về URL). Nếu Google có PR cho trang cha, thì nó sẽ trừ đi 1 và hiển thị lên thanh công cụ cho giá trị của trang đó. Nếu nó không có PR cho trang cha, nó sẽ đi đến “trang cha của trang cha”, nhưng sẽ trừ đi 2, và cứ tiếp tục như vậy cho đến khi đến tên miền gốc mới thôi. Nếu nó không thể tìm thấy PR theo cách này, nghĩa là nó không thể tìm thấy trang được tính toán PR thực sự thì thanh công cụ sẽ hiển thị màu xám nhạt.

Lưu ý rằng nếu thanh công cụ dự đoán theo cách này, PR Thực Sự của trang là 0 – mặc dù PR của trang sẽ được tính toán ngay sau khi bọ của Google tìm thấy trang lần đầu tiên.

PageRank không nói gì về nội dung hoặc kích cỡ của một trang, cũng như ngôn ngữ văn bản, hoặc văn bản neo được sử dụng trong liên kết!

Các định nghĩa

Tôi sẽ sử dụng một số thuật ngữ kỹ thuật và từ viết tắt trong bài viết này. Giờ là lúc thích hợp để định nghĩa tất cả các thuật ngữ:

  • PR: Viết tắt của PageRank: giá trị trang thực tế được tính bới Google. Như chúng ta sẽ thấy về sau, nó có thể có giá trị từ 0,15 cho đến cả hàng triệu.
  • Thanh công cụ PR: Giá trị PageRank hiển thị trong thanh công cụ Google trên trình duyệt của bạn. Nó có giá trị nằm trong khoảng từ 0 đến 10.
  • Backlink: Nếu trang A liên kết đến trang B, thì trang B được nói rằng có một “backlink”(***) từ trang A.

Như vậy là đủ rồi, hãy quay lại chủ đề chính…

(***): Trong giới SEO, backlink thường được hiểu là liên kết có được từ hệ thống website bên ngoài, chứ không bao gồm liên kết nội bộ trong cùng website đó. Bài viết này thì không phân biệt như vậy. Liên kết có được từ liên kết nội bộ (internal link) hay website ngoài trỏ đến đều được gọi là backlink – chú thích của người dịch.

Vậy PageRank là gì?

Nói một cách ngắn gọn PageRank là một “phiếu bầu / vote”, và người đi bầu là tất các trang khác trên Web, giúp chúng ta biết tầm quan trọng của một trang. Một liên kết được xem như một phiếu bầu ủng hộ (không phân biệt đó là liên kết nội bộ, hay liên kết ngoài). Nếu không có liên kết có nghĩa là không có sự ủng hộ (nhưng điều này giống với việc không đi bỏ phiếu chứ không phải là bỏ phiếu chống lại trang).

Trích từ tài liệu gốc của Google, PageRank được định nghĩa như sau:

Chúng ta giả định trang A có các trang T1…Tn trỏ đến nó (ví dụ, là các trích dẫn). Tham số d là hệ số giảm trừ cái có thể được thiết lập trong khoảng từ 0 đến 1. Chúng ta thường thiết lập d với giá trị 0,85. Có thêm thông tin chi tiết về d ở phần kế. C(A) được định nghĩa như là số liên kết trỏ ra ngoài của trang A. PageRank của trang A có công thức như sau:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Lưu ý là PageRank hình thành một dạng phân phối xác suất trên toàn bộ trang web, do đó tổng PageRank của tất cả các trang web sẽ là một.

PageRank hoặc PR(A) có thể được tính toán bằng cách sử dụng một thuật toán lặp đơn giản, và tương ứng với hàm riêng của ma trận liên kết chuẩn hóa của web.

Phần mô tả ở trên không quá hữu dụng, do vậy tôi sẽ đi vào cụ thể từng phần để dễ hiểu hơn.

  1. PR(Tn) – Mỗi trang có tầm quan trọng của riêng nó. PR(T1) là PageRank của trang đầu tiên T1, còn PR(Tn) là PageRank của trang cuối cùng Tn
  2. C(Tn) – Mỗi trang chia đều phiếu bầu của họ cho tất cả các link hướng ra ngoài của nó. Về mặt số lượng C(T1) là số lượng link trỏ ra bên ngoài của trang T1, C(Tn) là số lượng link trỏ ra bên ngoài của trang Tn. Lưu ý: C(Tn) bao gồm cả liên kết nội bộ (internal link) và liên kết trỏ ra hẳn bên ngoài website (external link)
  3. PR(Tn)/C(Tn) – Vì thế nếu trang của chúng ta (trang A) có backlink từ trang “Tn”, sức mạnh mà trang A nhận được sẽ là PR(Tn)/C(Tn); tức là giá trị PR của trang Tn chia đều cho các liên kết trỏ ra ngoài của trang Tn
  4. d(… – Tất cả các liên kết trỏ đến được hợp thành với nhau, nhưng để ngăn các trang khác có quá nhiều ảnh hưởng, tổng lượng phiếu bầu này được “giảm bớt xuống” bằng cách nhân nó với 0,85 (tham số “d”)
  5. (1-d) – một giá trị nhỏ (1-d) ở đầu phương trình là giá trị nhỏ cho tính toán xác suất, vì thế “tổng PageRank của tất cả các trang web sẽ là một“: nó thêm mọt chút giá trị bị mất bởi phép tính d(… Nó cũng có nghĩa là nếu một trang không có bất cứ liên kết nào trỏ tới nó (không có backlink) thì thậm chí khi ấy nó vẫn sẽ nhận được giá trị PR nhỏ là 0,15 (ví dụ 1- 0,85). (Ngoài lề” Tài liệu từ Google nói rằng “tổng tất cả các trang web” nhưng chúng có nghĩa là “tổng chuẩn hóa / the normalised sum” – hay còn được gọi là “trung bình” đối với bạn và tôi).

PageRank được tính toán như thế nào?

Ở đây có một vấn đề kỳ lạ. PR của một trang phụ thuộc vào PR của các trang trỏ tới nó. Nhưng chúng ta lại không biết PR của những trang đó cho đến khi các trang trỏ tới chúng có giá trị PR được tính toán cụ thể và cứ tiếp tục như vậy (vòng lặp vô tận của điều không biết)… Và khi bạn xem xét chuyện trang có thể liên kết dưới dạng vòng tròn làm cho nó dường như không thể tính toán nổi!

Nhưng sự thực thì nó không tệ như thế. Cần nhớ lại điều này trong tài liệu gốc của Google:

PageRank hay PR(A) có thể được tính toán dưới dạng một vòng lặp đơn giản (simple iterative algorithm),và tương ứng với hàm riêng của ma trận liên kết chuẩn hóa của web.

Nghe vẫn khó hiểu (đúng hơn đối với người dịch là không hiểu gì!), nhưng điều này có nghĩa là chúng ta có thể tính toán PR của một trang mà không cần biết giá trị PR của các trang khác (đoạn này thì tôi hoàn toàn hiểu được). Điều này thoạt nhìn có vẻ kỳ lạ, nhưng về cơ bản, mỗi lần chúng ta chạy tính toán, chúng ta sẽ có được giá trị gần đúng của giá trị cuối cùng. Vì thế tất cả điều chúng ta cần làm là ghi nhớ mỗi giá trị chúng ta tính toán và lặp lại tính toán nhiều lần cho đến khi giá trị ngừng thay đổi quá nhiều.

Hãy thử với ví dụ về một mạng đơn giản nhất: gồm hai trang, mỗi trang đều trỏ tới trang kia:

2 trang trỏ vào nhau

Mỗi trang có một liên kết ngoài (số lượng liên kết ngoài là 1, ở đây, C(A)=1 và C(B)=1)

Gán giá trị lần 1

Chúng ta không biết giá trị PR nên có lúc ban đầu, vì thế giả sử chúng ta bắt đầu với giá trị là 1 và tiến hành một số tính toán:

  • d = 0,85
  • PR(A) = (1-d) + d (PR(B)/1)
  • PR(B) = (1-d) + d (PR(A)/1)

Giá trị cụ thể sẽ là:

  • PR(A) = 0,15 + 0,85 * 1 = 1
  • PR(B) = 0,15 + 0,85*1 = 1

Hừm, các con số chẳng thay đổi chút nào! Vì thế có vẻ như chúng ta đã bắt đầu với một dự đoán đầy may mắn rồi!!!

Gán giá trị lần 2

Không, điều này là quá dễ dàng, có thể tôi đã sai (và nó chẳng phải là lần đầu tiên). OK, hãy thử bắt đầu với dự đoán tại 0 và tính toán lại:

  • PR(A) = 0,15 + 0,85 * 0 = 0,15
  • PR(B) = 0,15 + 0,85 * 0,15 = 0,2775

Ghi chú: PR(B) ban đầu được gán giá trị là 0 để tính toán ra PR(A). Sau đó chính giá trị PR(A) này lại được dùng đề tính lại PR(B).

Thêm một vòng lặp nữa (lần 2):

  • PR(A) = 0,15 + 0,85 * 0,2775 = 0,385875
  • PR(B) = 0,15 + 0,85 * 0,385875 = 0,47799375

Tiếp tục lặp lại (lần 3):

  • PR(A) = 0,15 + 0,85 * 0,47799375 = 0,5562946875
  • PR(B) = 0,15 + 0,85 * 0,5562946875 = 0,622850484375

Lần 4:

  • PR(A) = 0,15 + 0,85 * 0,622850484375 = 0,67942291171
  • PR(B) = 0,15 + 0,85 * 0,67942291171 = 0,72750947495

Lần 5:

  • PR(A) = 0,15 + 0,85 * 0,72750947495 = 0,7683830537
  • PR(B) = 0.15 + 0.85 * 0,7683830537 = 0,80312559564

Và cứ tiếp tục tính như vậy. Giá trị cứ tiếp tục tăng. Nhưng các con số sẽ ngừng tăng khi chúng nhận giá trị 1,0? Điều gì sẽ xảy ra khi chúng ta tính vượt mức giá trị ban đầu là 1,0?

Gán giá trị lần 3

Giờ chúng ta giả dụ mỗi cái có giá trị là 40, hãy làm vài vòng lặp xem thế nào:

  • PR(A) = 40
  • PR(B) = 40

Tính toán lần đầu:

  • PR(A) = 0,15 + 0,85 * 40 = 34,15
  • PR(B) = 0,15 + 0,85 * 34,15 = 29,1775

Lần thứ 2:

  • PR(A) = 0,15 + 0,85 * 29,1775 = 24,950875
  • PR(B) = 0,15 + 0,85 * 24,950875 = 21,35824375

Lần thứ 3:

  • PR(A) = 0,15 + 0,85 * 21,35824375 = 18,3045071875
  • PR(B) = 0,15 + 0,85 * 18,3045071875 = 15,7088311094

Lần thứ 4:

  • PR(A) = 0,15 + 0,85 * 15,7088311094 = 13,502506443
  • PR(B) = 0,15 + 0,85 * 13,502506443 = 11,6271304766

Lần thứ 5:

  • PR(A) = 0,15 + 0,85 * 11,6271304766 = 10,0330609051
  • PR(B) = 0,15 + 0,85 * 10,0330609051 = 8,67810176933

Đúng vậy, các giá trị đó đang giảm dần! Chắc chắn các con số sẽ đạt giá trị ở 1.0 và dừng lại.

Nguyên lý: không thành vấn đề là bạn khởi tạo giá trị dự đoán ban đầu là bao nhiêu, một khi PageRank được tính toán ổn định, thì giá trị “phân phối xác suất chuẩn hóa” (giá trị PageRank trung bình của tất cả các trang) sẽ là 1.0

Nhận được câu trả lời nhanh

Vòng lặp cần phải lặp lại bao nhiêu lần khi chúng ta tính toán với một mạng lưới khổng lồ? Đây là một câu hỏi khó; với một mạng lưới rất lớn như World Wide Web nó có thể là nhiều triệu vòng lặp! Giá trị của “tham số giảm trừ” là khá tinh tế. Nếu nó quá cao sẽ dẫn đến việc mất nhiều thời gian để giải quyết, nếu nó quá thấp thì bạn sẽ vượt ngưỡng lặp đi lặp lại, cả giá trị cao và thấp hơn so với trung bình – các con số sẽ dao động như con lắc và không bao giờ cố định lại.

Ngoài ra việc lựa chọn thứ tự tính toán có thể hữu ích. Câu trả lời sẽ giống nhau – không thành vấn đề thứ tự bạn chọn như thế nào, nhưng một số thứ tự sẽ giúp bạn tiến hành nhanh hơn so với những cái khác.

Tôi chắc chắn rằng có một số luận án thạc sỹ về cách tính toán cái này sao cho hiệu quả nhất có thể, nhưng trong các ví dụ bên dưới, tôi sử dụng đoạn mã rất đơn gian để tính toán gần đúng với 20 đến 40 vòng lặp!

Các ví dụ

Chúng ta sẽ đi qua các ví dụ để hiểu rõ hơn về PageRank:

Ví dụ 1

ví dụ 1 tính pagerank

Tôi không lặp lại tính toán ở đây, mà chỉ trưng ra kết quả luôn, các giá trị PR chính xác cho ví dụ này là:

kết quả PR, ví dụ 1

Giá trị PR trung bình là 1

Với mạng này, tôi chỉ cần 20 lần lặp để các giá trị trở nên ổn định!

Hãy nhìn vào trang D – nó có PR là 0,15 vì chẳng có ai bầu cho nó cả (không có liên kết nào trỏ đến), liệu con số này có đúng không?

Hãy xem lại công thức tính:

PR(D) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Nhưng vì trang D không có backlink nào cả, điều này có nghĩa là phương trình sẽ thành thế này:

PR(D) = (1-d) + d*(0) = 0,15

Không thành vấn đề bạn tính toán nó bao nhiêu lần.

Điều quan sát được: mỗi trang có PR ít nhất là 0,15. Nhưng điều này chỉ là lý thuyết – có tin đồn cho rằng, Google còn thực hiện giai đoạn hậu kiểm, khi đó bất cứ trang nào không có liên kết trỏ đến sẽ bị xóa bỏ hoàn toàn khỏi chỉ mục…

Liệu nhìn vào sơ đồ trên bạn có đoán được thứ tự PR của từng trang hay không? Chỉ cần căn cứ vào chất lượng và số lượng các liên kết trỏ đến của từng trang.

Để tôi thử nhé:

  • Trang C sẽ có PR cao nhất vì nó có nhiều liên kết trỏ đến nhất, và được tất cả các trang trong hệ thống trỏ đến
  • Trang D sẽ có PR thấp nhất vì nó không có liên kết nào trỏ đến
  • Trang A sẽ có PR cao hơn trang B, vì trỏ đến trang A là trang C, trang có PR cao nhất; trong khi trỏ đến trang B chỉ có trang A, chắc chắn có PR thấp hơn trang C

Ví dụ 2

Một phân cấp đơn giản với một số liên kết trỏ ra bên ngoài.

  • Home: trang chủ
  • About: trang giới thiệu
  • Product: trang sản phẩm
  • Links: các bài viết thông thường
  • External Site: trang thuộc hệ thống bên ngoài, ở đây có 4 trang là A, B, C, D

ví dụ 2 - pagerank

Kết quả:

ví dụ 2 - kết quả pagerank

Giống như bạn đoán, trang chủ có chỉ số PR cao nhất – suy cho cùng, nó là trang nhận được nhiều liên kết đến nhất! Nhưng điều gì đã xảy ra với con số trung bình? Nó chỉ có giá trị là 0,378!!! Điều này không đúng với những gì tôi nói trước đó, do vậy, hẳn có điều gì đó sai ở đây!

À, không, mọi thứ vẫn ổn. Nhưng hãy nhìn vào các trang bên ngoài – điều gì xảy ra với PageRank của chúng vậy? Chúng không bầu cho bất cứ trang nào khác, chúng đang làm lãng phí PR của chính chúng!

Ví dụ 3

Bây giờ chúng ta thử liên kết những trang bên ngoài này trở lại trang chủ để xem điều gì xảy ra với con số trung bình…

ví dụ 3 về pagerank

Có vẻ tốt hơn – cuối cùng thì nó cũng hoạt động! Và hãy nhìn vào chỉ số PR của trang chủ! Tất cả các liên kết trỏ đến chắc chắn tạo ra sự khác biệt – chúng ta sẽ nói rõ hơn ở phần sau.

Ví dụ 4

Điều gì xảy ra cho chỉ số PR nếu chúng ta làm theo gợi ý về việc viết trang đánh giá?

ví dụ 4 về pagerank

Kết quả:

kết quả ví dụ 4 về pagerank

Ví dụ 5

Một ví dụ phân cấp đơn giản:

pagerank-vi-du-5

Trang chủ có PR gấp 2,5 lần PR của các trang con! Thật tuyệt vời!

  • Điều quan sát được: một hệ thống bầu chọn tập trung phân cấp và PR sẽ tập trung vào một trang

Ví dụ 6

Vòng lặp (looping):

ví dụ 6 về pagerank

Đây là kết quả mà chúng ta mong chờ. Tất cả các trang có cùng số lượng liên kết trỏ đến, tất cả các trang có mức độ quan trọng ngang bằng với các trang khác, tất cả các trang có cùng chỉ số PR là 1,0

Ví dụ 7

Liên kết dày đặc (còn gọi là fully meshed):

ví dụ 7 về pagerank

Vâng, kết quả tương tự với vòng lặp ở trên vì các lý do tương tự.

Ví dụ 8

Phân cấp – nhưng với một liên kết bên ngoài trỏ đến hệ thống và một liên kết từ hệ thống trỏ ra ngoài.

Chúng ta giả định là có một website bên ngoài có rất nhiều trang và các liên kết với kết quả là một trong các trang có PR trung bình là 1,0. Chúng ta cũng giả định là chủ website đó thực sự thích web của chúng ta – do vậy người này liên kết từ trang của họ (Site A có PR = 1) đến trang chủ của chúng ta.

ví dụ 8 về pagerank Trong ví dụ 5, trang chủ chỉ có PR là 1,92 nhưng giờ chỉ số của nó là 3,31! Thật tuyệt vời! Điều đó không chỉ vì site A đóng góp 0,85 PR cho chúng ta, mà cả việc tăng PR ở các trang “About”, “Product”, “More” đã đem lại hiệu ứng phản hồi tốt đẹp, đẩy chỉ số PR của trang chủ thậm chỉ còn lên cao hơn!

Ví dụ 9

Vòng lặp tròn – nhưng có một liên kết trỏ đến và một liên kết trỏ đi

ví dụ 9 về pagerank

Vâng, PR của trang chủ đã tăng lên một chút, nhưng điều gì đã xảy ra với trang “More”?

Phiếu bầu của trang “Product” được chia sẻ như nhau giữa trang “More” và web bên ngoài (website B). Chúng ta giờ xem giá trị của site B bằng với trang “More”. Trang “More” chỉ nhận được một nửa phiếu bầu so với trước đây – điều này là tốt cho Site B nhưng lại rất tệ cho chúng ta!

Ví dụ 10

Liên kết dày đặc dạng mạng lưới (fully meshed) – nhưng có một liên kết trỏ đến và một liên kết trỏ đi

ví dụ 10 về pagerank

Nó đã tốt hơn rất nhiều. Trang “More” vẫn nhận được ít phiếu bầu chia sẻ nhất, tuy nhiên giờ trang “Product” đã giữ được ba phần tư giá trị phiếu bầu của nó – không giống như ví dụ 9 khi nó cho đi một nửa phiếu bầu của nó cho trang bên ngoài!

  • Điều quan sát được: gia tăng liên kết nội bộ trong trang của bạn có thể làm tối thiểu hóa tổn hại đến PR của bạn khi bạn cho tặng phiếu bầu bằng cách liên kết đến các website bên ngoài.
  • Nguyên lý: (I) Nếu một trang cụ thể nào đấy có mức độ quan trọng cao – sử dụng cấu trúc phân cấp với trang quan trọng nằm ở đỉnh (giống với ví dụ 5). (II) Khi một nhóm các trang có thể bao gồm các liên kết ra bên ngoài – làm tăng số lượng liên kết nội bộ để giữ lại nhiều PR nhất có thể. (III) Khi một nhóm các trang không bao gồm các liên kết ra bên ngoài – số lượng các liên kết nội bộ trong website không ảnh hưởng đến PR trung bình của website. Bạn cũng có thể sử dụng một cấu trúc liên kết để đem lại trải nghiệm tốt nhất cho người dùng khi họ thực hiện điều hướng.

Site maps

Site maps hữu dụng theo ít nhất hai cách:

  • Nếu người dùng gõ URL sai, hầu hết các website trả về kết quả không thực sự có ích – “trang 404 – không tìm thấy nội dung”.  Điều này làm người dùng chán nản. Tại sao bạn không điều chỉnh máy chủ để nó trả về trang hiển thị lỗi vừa tạo, nhưng kèm với đó là site map? Điều này có thể giúp đỡ người dùng rất nhiều
  • Liên kết site map trên mỗi trang làm tăng số lượng liên kết nội bộ trên trang, làm giảm phân tán PR ra ngoài, và bảo vệ bạn hạn chế ảnh hưởng của bạn về các phiếu bầu “thiện nguyện”

Ví dụ 11

Chúng ta thử sửa website của chúng ta thành dạng tập trung giả PR vào trang chủ.

ví dụ 11 về pagerank

Sơ đồ trông khá ổn, hầu hết các liên kết đều trỏ tới trang A, vì thế nó sẽ nhận được chỉ số PR tốt.

Hãy thử đoán giá trị PR của trang A là bao nhiêu trước khi bạn cuộn chuột xuống bên dưới.

kết quả ví dụ 11 về pagerank

Bạn thất đấy, nó không hoạt động tốt lắm – tệ hơn nhiều so với trang cấu trúc thông thường (ở ví dụ 5)! Điều đang xảy ra là trang C và D có các liên kết trỏ đến yếu đến mức mà chúng không giúp được gì nhiều cho trang A!

  • Nguyên lý: cố gắng lạm dụng chỉ số PR khó khăn hơn bạn tưởng.

Ví dụ 12

Một thiết kế web phổ biến cho các tài liệu dài đó là phân chia tài liệu thành nhiều trang với liên kết “Trước” và “Sau” trên mỗi trang kèm với liên kết ngược trở về trang chủ. Trang chủ chỉ cần trỏ đến trang đầu tiên của tài liệu.

ví dụ 12 về pagerank

Trong ví dụ đơn giản này, khi chỉ có một tài liệu, trang đầu tiên của tài liệu có PR hơn cả trang chủ! điều này xảy ra là vì trang B nhận được toàn bộ phiếu bầu từ trang A, nhưng trang A chỉ nhận được một phần phiếu bầu từ trang B, C và D.

  • Nguyên lý: để đem lại cho người xem trên trang của bạn trải nghiệm người dùng tốt, bạn có thể phải chống lại ý tưởng về kiểu PR nào tốt nhất bạn nên có. Bạn chẳng thể làm điều gì ở đây cả – và bạn cũng không cần cố gắng hoặc lo lắng về điều đó! Nếu trang của bạn đem lại cảm giác thoải mái khi sử dụng, sẽ có nhiều chủ trang có khả năng liên kết đến bạn và bạn sẽ nhận được nhiều PR hơn so với những gì bạn mất.

Bạn có thấy được xu hướng giữa điều này và ví dụ trước đó? Khi bạn thêm nhiều liên kết nội bộ vào trang nó sẽ đến gần trạng thái giống với ví dụ 7 về liên kết dày đặc khi mà tất cả các trang sẽ nhận giá trị PR trung bình.

  • Điều quan sát được: khi bạn thêm nhiều liên kết nội bộ vào trang của bạn, PR sẽ phân tán ra đồng đều hơn (more evenly) giữa các trang.

Ví dụ 13

Nhận được PR cao theo cách sai và theo cách đúng.

Đây chỉ là giả thuyết thử nghiệm, giả dụ chúng ta nhận được 1000 trang trỏ đến trang chủ (trang A), nhưng chỉ có một liên kết trỏ ra bên ngoài (đến trang B)…

ví dụ 13 về PageRank

Đúng vậy, những trang spam này khá vô giá trị nhưng chúng chắc chắn làm đẩy giá trị của trang chủ.

  • Điều quan sát được: không thành vấn đề là bạn có bao nhiêu trang trên website, chỉ số PR trung bình của bạn luôn là 1,0. Nhưng cấu trúc layout có thể tập trung mạnh mẽ vào phiếu bầu, và do đó là vào PR cho trang chủ!

Đây là kỹ thuật được sử dụng bởi một số trang gây tranh cãi (hầu hết là các trang người lớn). Nhưng tôi không thể khuyên bạn làm điều này – nếu bọ tìm kiếm của Google biết bạn làm điều này vì mục đích gì bạn có khả năng bị phạt (cấm) bởi Google! Điều này là thảm họa!

Mặt khác, có ít nhất hai cách hợp lệ để có được PR cao:

1. Trở thành một trang lớn

Trang lớn, như trang https://news.bbc.co.uk/ có hàng chục hoặc hàng trăm biên tập viên viết nội dung mới – tức là các trang mới suốt cả ngày! Mỗi một trang trong số chúng giàu nội dung, có giá trị có liên kết ngược trở lại trang cha hoặc trang chủ! Đấy là lý do vì sao trang chủ có chỉ số PR là 9/10 và chúng ta bị đẩy xuống thấp hơn và thấp hơn nữa khi đem ra so sánh…

  • Nguyên lý: Nội dung là Vua! Một sự thực là không gì có thể thay thế được việc có nhiều nội dung tốt…

2. Cho đi thứ gì đó hữu ích

Trang www.phpbb.com có điểm số PR là 8/10 (tại thời điểm bài gốc tiếng Anh này đang viết) và họ chẳng có nhiều tiền hay chiến dịch marketing rầm rộ nào đứng đằng sau cả! Làm thế nào lại có thể như thế được?

Điều mà nhóm này đã làm được là viết ra được một hệ thống diễn đàn rất hữu ích, và trở nên phổ biến trên nhiều website. Và ở cuối mỗi trang, ở mọi phiên bản cài đặt, trong dòng mã HTML đều có dòng sau:

Powered by <a href=”https://www.phpbb.com/” target=”_blank”>phpBB</a>

Người quản trị website vừa cài đặt có thể dễ dàng loại bỏ đường link đó, nhưng phần lớn không làm vậy bởi vì họ muốn để đó như một lời cảm ơn…

Bạn có thể tưởng tượng có hàng triệu trang ủng hộ phpbb.com? Wow!

  • Nguyên lý: Tạo ra điều gì đó có giá trị, đó có thể là nội dung hoặc công cụ. Nếu món quà của bạn đủ hấp dẫn, chủ các trang khác sẽ sẵn lòng gửi tặng bạn một liên kết ngược.
  • Nguyên lý: Có lẽ sẽ tốt hơn khi có được nhiều (có thể là hàng ngàn) liên kết từ các website có PR nhỏ hơn là bỏ thời gian và tiền bạc chỉ để theo đuổi mòn mỏi một liên kết từ trang có PR cao.

Thảo luận về giá trị trung bình

Kể từ khi Brin và Page đưa ra phát minh của họ, giá trị trung bình PR thực sự của tất cả các trang trong chỉ mục vẫn chỉ là 1,0!

Vì thế nếu bạn thêm các trang mới vào website, bạn sẽ thêm vào tổng số PR mỗi trang là 1,0 (nhưng chủ khi bạn liên kết các trang với nhau, nhờ thế chương trình mới hoạt động được), tuy nhiên giá trị trung bình thì vẫn nguyên như vậy.

Nếu bạn muốn tập trung PR vào một hoặc vài trang, các trang cấu trúc theo kiểu thứ bậc (hierarchical) sẽ làm được điều đó. Nếu bạn muốn phân tán đều PR giữa các trang hãy liên kết trang theo kiểu mạng lưới dày đặc (fully meshing) – là các ví dụ 5, 6 và 7 ở trên. (ghi chú, đây là điều mà Riding đã sai, trong mô hình MiniRank cúa anh ấy, vòng lặp phản hồi sẽ làm tăng PR – không có giới hạn!)

Có được liên kết từ website bên ngoài trỏ đến (inbound links) là cách duy nhất để làm tăng giá trị PR trung bình của bạn. Cách PR phân phối bên trong các trang của bạn cụ thể ra sao còn phụ thuộc vào các liên kết nội bộ của bạn như thế nào, và trang nào của bạn được trỏ đến.

Nếu bạn có liên kết trỏ ra bên ngoài website của bạn, thì PR trung bình các trang của bạn sẽ giảm xuống (bạn đã không giữ các bầu chọn ở “trong nhà mình”). Một lần nữa, việc bị giảm cụ thể ra sao còn phụ thuộc vào các liên kết cụ thể thế nào.

Chúng ta biết rằng PR trung bình của tất cả các trang có giá trị là 1,0. Trong khi chúng ta thấy có một số trang có PageRank lên đến hàng triệu, do vậy sẽ phải có rất rất nhiều trang có giá trị PR Thức Tế dưới 1,0 (đặc biệt là do giá trị PR Thực Tế tuyệt đối luôn có sẵn cho những trang không có liên kết trỏ đến, tức là 1 – d).

Điều đó có thể dẫn đến tình trạng là trên thanh công cụ PR có giá trị đại diện 1,2 nhưng giá trị PR thực tế của nó có thể thấp hơn 1,0! Ví dụ hàm log trên thanh công cụ có thể là 10, nhưng giá trị thực tế của PR có thể bắt đầu với chuỗi khá thấp như: 0,01; 0,1; 1; 10; 100; 1000, vân vân.

Lời cuối

Trong thực tế thì PageRank rất đơn giản (không hề giống với công thức đáng sợ của nó). Nhưng khi một công thức đơn giản được áp dụng hàng trăm (hoặc thậm chí là hàng triệu) lần lặp lại để có được kết quả thì nó có vẻ phức tạp.

PageRank cũng chỉ là một phần trong câu chuyện về: cái gì thì có hiệu quả trong việc giành được vị trí cao hơn trong kết quả trả về của Google? Lấy ví dụ có một số bằng chứng cho thấy Google đang chú ý rất nhiều vào văn bản neo khi quyết định mức độ liên quan của trang được trỏ đến – có lẽ còn nhiều hơn so với PR của trang…

Tuy nhiên PageRank vẫn là một phần trong thuật toán của xếp hạng của Google, do nó xứng đáng được những người thiết kế web giỏi hiểu đúng.

(Dịch từ bài viết The Google Pagerank Algorithm and How It Works – tác giả Ian Rogers)

0 bình luận

Khu vực bình luận

avatar