Cách sử dụng số trong tên miền của nhóm 100 ngàn website có lưu lượng truy cập cao nhất thế giới

Dựa trên bảng xếp hạng danh sách top 100 ngàn website hàng đầu thế giới của Alexa (quãng năm 2016), chúng tôi tiến hành phân tích cách sử dụng số trong tên miền của nhóm này.

Trước tiên chúng tôi loại bỏ các dữ liệu không chính xác.

Một số website có số nhưng thực ra không phải, cụ thể là các tên miền đặc biệt kiểu như: xn--igbhe7b5a3d5a.com, đây là tên miền IDN (tên miền đa ngữ) – một dạng tên miền sử dụng bảng chữ cái của các ngôn ngữ nằm ngoài bảng chữ cái tiếng Anh, để mã hóa nó phải sử dụng dạng như trên (rất hay có số, mặc dù không phải lúc nào cũng vậy).

Trong danh sách này có khoảng 0,1% tên miền là dạng IDN và chúng tôi đã loại bỏ chúng hoàn toàn.

A. Định nghĩa về cách xác định sử dụng số trong tên miền

Tôi sẽ đưa ra các ví dụ tên miền cụ thể để bạn dễ hình dung:

  • hao123.com: số dùng là 123 (số ở cuối)
  • 360.cn: số dùng là 360 (chỉ dùng số)
  • 9gag.com: số dùng là 9 (số ở đầu)
  • w3schools.com: số dùng là (số ở giữa)
  • mobile01.com: số dùng được tính là 1, chứ không phải 01 hoặc 0 và 1 (trừ trường hợp chúng tôi trích xuất số 0 đằng trước trong một số thống kê cụ thể)
  • g4d7.com: số dùng là 4, chứ không phải 47 hoặc 4 và 7
  • 000webhost.com: số dùng là 0, chứ không phải 000

Rõ ràng có vấn đề với một vài cách tính số, chẳng hạn như 3 dạng cuối (đặc biệt là kiểu g4d7) nhưng phần lớn tên miền có số rơi vào 4 dạng đầu tiên, các dạng còn lại thực tế rất ít nên chúng ta không cần lo lắng về một số nhỏ thống kê không hoàn hảo đó.

B. Tỷ lệ các tên miền có số

Khi nghĩ tên miền mới, mà định cho số vào tên miền thì cần cân nhắc kỹ, vì nó có khả năng gây nhầm lẫn. Như viết số hay chữ (5 hay “năm”). Hoặc ý định viết tắt theo kiểu tiếng Anh, giả dụ 4 cho “for”, 2 cho “to”.

Thực tế tỷ lệ tên miền có số cao hơn tôi nghĩ khá nhiều, trong thống kê có 7996 tên miền có số. Nói cách khác có 8% tên miền có số trong top 100 ngàn trang web hàng đầu thế giới.

Hóa ra có nhiều cách đặt tên miền có số đủ hay và rất ít gây nhầm lần.

C. Tên miền chỉ toàn số

Số trong tên miền có 2 dạng:

  1. Tên miền chỉ toàn số, không có ký tự nào khác (ví dụ: 01.org hoặc 123.com)
  2. Tên miền có cả chữ và số (có ít nhất một ký tự ngoài số, thí dụ 0-6.com hoặc a123.com)

Đúng như dự đoán, không có nhiều tên miền chỉ toàn số, theo thống kê của chúng tôi chỉ có 695 tên miền toàn số, chiếm chưa đến 9% tổng số tên miền có số, và chỉ chiếm 0,7% trong toàn bộ danh sách tên miền.

D. Tên miền có cả chữ và số

Như vậy tên miền có cả chữ và số chiếm hơn 90% trong dạng tên miền có số.

Tên miền có cả chữ và số được chia tiếp thành 3 dạng:

  1. Số ở vị trí bắt đầu của tên miền (các ký tự đằng sau là chữ hoặc chữ và số)
  2. Số ở vị trí cuối của tên miền (ký tự đầu tiên là chữ)
  3. Số ở vị trí giữa tên miền (ký tự đầu tiên và cuối cùng là chữ)

Kết quả thống kê cho thấy có:

  • 2155 tên miền bắt đầu là số, sau đó là chữ (như 123abc.com hoặc 123abc5.com)
  • 3499 tên miền kết thúc là số, ở trước có chữ (như abc123.com)
  • Có 1647 tên miền có số ở giữa (trước và sau chỉ có chữ, túc là chỉ tính dạng như a123bc.com hoặc a12b5c.com)

Tính ra tỷ lệ phần trăm (cho cả mục C và D):

các kiểu tên miền có số

Kết luận kiểu tên miền có số phổ biến nhất là trước có chữ, sau là số.

E. Số bắt đầu và Số kết thúc

Điều chúng tôi muốn biết tiếp theo là số thường bắt đầu và kết thúc bằng con số cụ thể nào.

Đầu tiên chúng tôi chỉ xét tên miền bắt đầu là số (bao gồm tên miền toàn số [123.com], hoặc tên miền trước là số sau là chữ [123abc.com]) thì số đầu tiên được sử dụng về mặt thống kê thuộc về số nào (từ 0 đến 9 – lưu ý trường hợp này chúng tôi trích xuất số 0 đằng trước), dưới đây là kết quả (trục tung là số lần lặp lại, trục hoành là con số cụ thể):

số đầu tiên được dùng nhiều nhất

Bạn có thể dễ dàng thấy, số 1 được bắt đầu nhiều nhất, còn 0, 6, 8 ít nhất. Các số 1, 3, 5, 7, 9 được sử dụng nhiều hơn gấp đôi các số 0, 2, 4, 6, 8 xét trên tổng thể.

Trường hợp tính trên toàn bộ dữ liệu gồm 7996 tên miền có số trong danh sách thì kết quả thay đổi (tức là bao gồm mọi vị trí số trong tên miền – nhưng vẫn chỉ xét số xuất hiện đầu tiên [ví dụ a123b.com – số ở vị trí giữa, số đầu tiên xuất hiện là 1]):

số được dùng nhiều nhất, tính trên toàn dữ liệu

0, 6, 8 vẫn được dùng ít nhất, nhưng vị trí dẫn đầu thuộc về 2, và 1 đứng ngay kế tiếp.

Tiếp đến chúng tôi thống kê các số được dùng ở vị trí cuối, chẳng hạn a123.com hoặc a123b.com thì số cuối là 3. Kết quả như sau tính trên toàn bộ tên miền có số (lưu ý chúng tôi không tính tên miền chỉ có 1 số, chẳng hạn a2b.com sẽ không được tính kết thúc là 2, tên miền này chỉ được tính bắt đầu là 2, ngoài ra trong thống kê này nếu tên miền có 2 số tách ra làm đôi thì chỉ số đầu tiên được tính, ví dụ a123bc45.com, thì số được tính là 123, và vị trí cuối được tính là 3, chứ không phải là 5, điều này có không công bằng nhưng dù sao những trường hợp như vậy xuất hiện rất ít.):

kết thúc số nào nhiều nhất

Kết quả 0, 1 và 4 được dùng nhiều nhất, các số còn lại khá tương đồng. Sự nổi trội của 0 ở vị trí cuối cho thấy sự ưa thích sử dụng số tròn trong tên miền.

F. Giá trị cụ thể nào được sử dụng nhiều nhất

Dưới đây là top 21 số được dùng nhiều nhất trong tên miền (trục tung là số lần lặp, trục hoành là giá trị cụ thể – trường hợp này 01 sẽ được tính là 1):

21 số được dùng nhiều nhất trong tên miền

Chúng ta nhìn thấy rõ số được dùng nhiều nhất là số 2, tiếp đến là 4, 3, 1, 24, 5,…Trong đó có những số có ý nghĩa khá rõ như 24, 123, 10, 365, 360.

Xét trong nhóm số từ 1 đến 100, tần số phân bố như sau:

tần số phân bố sử dụng - top 100 số đầu tiên

Có thể thấy các số từ 1 – 24 được dùng nhiều nhất, đặc biệt là những số đầu tiên. Hình bên dưới cho cái nhìn cận cảnh hơn về 10 số đầu tiên đó:

10 số đầu tiên

Xét về khoảng giá trị, phần lớn nằm trong nhóm từ 100 trở xuống:

phần lớn các con số là từ 100 trở xuống

Hình trên có nghĩa là 73% tên miền có chứa số mà các số đó có giá trị từ 100 trở xuống.

Nếu đẩy giá trị lên 1000, tỷ lệ xấp xỉ 89%. Đẩy tiếp lên 10.000 thì tỷ lệ là 95%.

Nếu chỉ xét từ 1 – 10, gần 47% tên miền có chứa số trong khoảng này.

Không công bằng lắm cho số 0, nhưng nếu bạn muốn biết tỷ lệ, nó có số lần lặp kém 9 lần so với số 1.

G. Có phải số càng nhỏ càng được sử dụng nhiều?

Hay ngược lại số càng lớn càng ít được dùng, liệu có đúng không.

Chúng tôi đánh giá mối tương quan này, nó rất rõ nét nều tính từ 1 – 10: hệ số tương quan là -0,81 (càng gần -1 càng tương quan nghịch).

Nhưng mờ dần khi các con số tăng dần giá trị, thí dụ từ 1 – 100: hệ số tương quan là -0,49

Từ 1 – 1000: hệ số tương quan chỉ là -0,22 (càng gần 0 càng không có mối tương quan).

H. Có nhiều số không được dùng không?

Thống kê cho thấy có rất nhiều số không được dùng bất cứ lần nào trong top 100 ngàn tên miền hàng đầu này, chẳng hạn như 128, 130, 134, vân vân.

Sở dĩ khoảng từ 1 – 1000 gần như không cho thấy có tương quan nghịch là vì trong nhóm này có đến 573 số không được sử dụng bất cứ lần nào trong tên miền.

Leave a Comment