Một số thống kê sâu về tên miền .com và .net

bởi Nguyễn Đức Anh
thống kê tên miền .com và .net

Ngày nay có vẻ như mọi doanh nghiệp, tổ chức và nhóm đều có website đại diện. Chúng ta truy cập những trang web này không phải thông qua địa chỉ IP (cái mà máy tính sẽ dùng) mà thông qua tên thân thiện và dễ nhớ với con người. Các dịch vụ sẽ chuyển dịch Tên Miền thành địa chỉ IP cho máy tính.

Ngày nay, Google.com, Microsoft.com và Amazon.com là những tên miền rất phổ biến. Đuôi của chúng là các ví dụ về TLDs (Tên miền cấp cao nhất). Mỗi tên miền là khác nhau, và tạo thành từ các chữ cái từ A đến Z (không phân biệt chữ hoa, chữ thường), các số từ 0 đến 9, ký tự gạch ngang” (gạch nối) và dấu chấm “.” (Tuy nhiên tên miền không được bắt đầu hoặc kết thúc bằng dấu gạch ngang hoặc dấu chấm).

Chỉ có một số lượng có hạn các cách khác nhau mà những ký tự trên có thể kết hợp để tạo thành tên miền (và thậm chí ít hơn nữa nếu tính đến các dạng từ và cụm từ dễ nhớ). Để hỗ trợ trong vấn đề này (và cũng để đưa ra một số dấu hiệu về các kiểu dịch vụ mà các trang web phục vụ), các đuôi tên miền được thêm vào cho mỗi tên miền cấp cao nhất nhằm phân loại chúng. Đuôi tên miền phổ biến nhất cho đến thời điểm này là .com (dự định ban đầu để biểu thị cho kinh doanh thương mại). Các đuôi tên miền phổ biến khác là .net, .gov, .org, .edu cũng như toàn bộ các tên miền quốc gia cấp cao nhất như .co.uk.co.jp

Mặc dù cân bằng có thể chuyển dịch trong tương lai với sự mở rộng của các tên miền cấp cao nhất dùng chung mới (gTLDs), và các đuôi mới tương ứng của chúng, nhưng đuôi tên miền .com sẽ vẫn thống trị thế giới tên miền.

.COM và .NET

Ở thời điểm của bài viết này, theo như Verisign102,815,927 tên miền đã đăng ký dưới đuôi .com, và 14,967,256 dưới đuôi .net

Tên miền được đăng ký không có nghĩa là nó đang được sử dụng, nó chỉ có nghĩa là ai đó đã đặt trước một tên miền để có thể sử dụng ngay trong lúc này hoặc ở thì tương lai.

Sự thống trị của tên miền .com có thể thấy từ sơ đồ hình Venn ngay bên dưới đây với sự so sánh chồng chéo của hai không gian tên miền.sự chồng lấn của các tên miền .com và .net

Sơ đồ cho thấy rằng, với mỗi đuôi tên miền khác nhau, có các tên miền chỉ được đăng ký dưới dạng .com, hay chỉ được đăng ký dưới dạng .net hoặc cả hai đuôi.

Lưu ý – Chỉ vì tên miền được đăng ký trong cả hai đuôi không có nghĩa là các đăng ký đó cùng thuộc về một công ty! Chỉ đôi khi mới như vậy, và thường là với các công ty tích cực đặt mua tên miền khớp với thương hiệu của họ trong các đuôi khác nhau để ngăn chặn sự nhầm lẫn và không cho người khác sở hữu. Nói chung, dù sao, tên với các đuôi khác nhau thuộc về các tổ chức khác nhau, đôi khi hợp pháp, đôi khi có ý định không rõ ràng.

Thật may mắn, các đăng ký gây hiểu nhầm không tạo ra được nhiều nguy hại bởi vì mọi người ngày càng dựa vào máy tìm kiếm để làm rõ mục tiêu yêu cầu của họ. Ngày nay, thường thì người dùng sẽ gõ trực tiếp điều họ muốn tìm kiếm vào ô tìm kiếm (thậm chí là thanh địa chỉ trình duyệt) và không gõ dạng đầy đủ http: địa chỉ trang web mong muốn của họ. Các trang web hợp pháp có xếp hạng thứ hạng trang vượt trội, và vì vậy có thứ hạng cao hơn trong kết quả của máy tìm kiếm.

Từ sơ đồ bên trên, chúng ta có thể thấy ưu thế của không gian tên miền .com; Trong 102,8 triệu tên miền đuôi .com chỉ có 12,54% cũng được đăng ký dưới dạng .net; Phần lớn những chủ sở hữu tên miền .com không nghĩ đuôi .net đáng để mua thêm.

Trái lại với quan điểm đó, trong 15 triệu tên miền .net có đến 86,13% cũng được đăng ký dưới đuôi .com rồi.

Bởi vì .com giờ đã trở thành một phần quen thuộc trong ngôn ngữ của chúng ta, người dùng internet đã rất quen thuộc với nó. Khi có ý định hình thành doanh nghiệp mới, có khả năng bạn sẽ tìm được tên miền thích hợp trong không gian .net, nhưng trong những ngày này tại sao phải bận tậm? Trừ lý do duy nhất là bạn không thể tìm được tên miền tự do trong không gian .com, cái mà bất cứ ai có lẽ cũng muốn mua đầu tiên. Có cách tốt hơn, đơn giản là nghiên cứu lại/brainstorm thêm nữa và tìm một tên bạn có thể mua trong không gian .com và tránh được việc khách hàng nhầm lẫn hoặc phải giáo dục lại khách hàng.

Phân bố chiều dài tên miền

Có được dữ liệu tên miền, tôi quyết định thực hiện một số phân tích dựa trên dữ liệu .com và .net

chiều dài tên miền .com

Ảnh phía trên là phân phối độ dài của tất cả các tên miền .com đã đăng ký.

Độ dài tên miền phổ biến nhất là 12 ký tự, và chiều dài trung bình là 13,539 ký tự. Độ dài trung vị cũng là 12 ký tự (có nghĩa là số lượng tên miền có nhiều hơn 12 ký tự cũng tương đương với số lượng tên miền có ít hơn 12 ký tự).

Bên dưới là biểu đồ tương tự cho tất cả tên miền .net đã được đăng ký.

độ dài tên miền .net

Độ dài trung bình của tên miền .net ngắn hơn một chút.

.COM.NET
Độ dài trung bình13,53912,394
Độ dài trung vị1211
Độ dài phổ biến nhất1210

Có một số tên miền khá dài, chúng tôi lựa chọn ngẫu nhiên vài cái tên có độ dài 63 ký tự:

ALTERNATIVE-RENEWABLE-ENERGY-STOCKS-INVESTMENT-WIND-SOLAR-POWER.COM

AXIALCENTRIFUGALRADIALINDUSTRIALMULTIVANEFANSVENTILATORSBLOWERS.COM

ASOCIACIONDEGUIASINTERPRETESDELPATRONATODELAALHAMBRAYGENERALIFE.COM

CARPET-CLEANING-ORANGE-COUNTYRUGSMATTRESSSTEAMUPHOLSTERYODORPET.COM

Hãy tưởng tượng những chủ sở hữu tên miền này đánh vần nó cho khách hàng tiềm năng qua điện thoại 🙂

Tình trạng bão hòa

Chỉ có một số giới hạn các kết hợp những ký tự được cho phép để tạo thành tên miền. Tất cả các tên miền 2 ký tự của .com và .net đã được đăng ký. Khi xem xét tên miền 3 ký tự, một lần nữa chúng tôi nhận thấy không gian địa chỉ đã bão hòa, với >96% tất cả các kết hợp đã được đăng ký hết. (Nói chung, các tên miền ngắn thường tốt hơn ở khía cạnh dễ nhớ, dễ gõ hơn và thường là tên viết tắt của các công ty, tổ chức).

Khi chuyển sang tên miền 4 ký tự, mọi thứ vẫn rất tắc nghẽn với 43% tất cả các kết hợp đã bị đăng ký với không gian .com. Mọi thứ giảm bớt hơn với không gian .net với 17% tất cả các kết hợp đã bị đăng ký.

Tiếp đến khi chúng tôi chuyển sang tên miền 5 ký tự, các kết hợp trở nên nhiều hơn hẳn, vì mỗi một ký tự tăng thêm trong tên miền, số lượng tên miền có thể được nhân lên 38 lần so với độ dài trước đó. Với tên miền 5 ký tự, có 3,4% tên miền .com đã được đăng ký. (Vì số lượng ký tự là 5, nó có thể tạo thành một số tên miền khá xấu xí, như có các ký tự lặp lại và dấu gạch ngang). Tình trạng bão hòa giảm xuống còn dưới 1% cho tên miền 5 ký tự trong không gian .net

Khi số lượng ký tự tăng lên là 6 hoặc nhiều hơn nữa, không gian tên miền trở nên dễ thở hơn nhiều và bão hòa không còn là vấn đề nữa. Lúc này vấn đề quan trọng hơn là tìm được tên miền dễ nhớ, đầy đủ ý nghĩa và đẹp (chứ không phải là các ký tự ngẫu nhiên hoặc sự lặp lại các ký tự không đẹp mắt).

Tên miền đối xứng

Tính trên toàn bộ không gian tên miền .com, hiện có 26,169 tên miền đối xứng (đọc ngược hay xuôi đều giống nhau), có 9,403 tên miền như vậy trong không gian .net

Dưới đây là một số lựa chọn ngẫu nhiên từ không gian tên miền .com:

A————————————————————-A.COM

ZYXWVUTSRQPONMLKJIHGFEDCBABCDEFGHIJKLMNOPQRSTUVWXYZ.COM

SATOR-AREPO-TENET-OPERA-ROTAS.COM

LOLOLOLOLOLOLOLOLOLOLOLOLOLOL.COM

REFLECTION–NOITCELFER.COM

WONTLOVERSREVOLTNOW.COM

SLATEMETALS.COM

Số và từ nối

Có hơn 9% tên miền .com bao gồm ít nhất một ký tự chỉ đến con số, với tên miền .net tên miền có số là trên 10%

Bởi vì tên miền dưới dạng các từ đơn trong từ điển và tên riêng hầu như đã bị đăng ký hết, nên rất nhiều tên miền được tạo nên bằng cách nối các từ với nhau. Bởi vì dấu cách không hợp lệ trong tên miền, người đăng ký có một lựa chọn đơn giản là nối các từ với nhau, thí dụ như tên miền của tôi là DucAnhPlus.com (bạn cũng cần biết rằng tên miền không phân biệt chữ hoa với chữ thường, vì thế ở một số trường hợp cần thiết có thể sử dụng từ viết hoa để đại diện cho việc bắt đầu một từ mới). Ngoài ra, mọi người có thể chọn sử dụng gạch nối – để bẻ các từ ra, ví dụ như rat-bikes.com

Trong lựa chọn của cá nhân tôi, bất kỳ tên miền nào sử dụng dấu gạch ngang là chưa tối ưu. Người dùng thường không nhớ bạn có sử dụng gạch nối hay không (họ có thể kết thúc với đối thủ cạnh tranh của bạn nếu họ quên dấu gạch ngang?). Ngoài ra, một số người dùng có thể lúng túng không biết cách sử dụng bàn phím để nhập dấu gạch nối (liệu nó có phải là dấu gạch dưới hay không?). Cũng rất khó để giải thích qua điện thoại; bạn sẽ gọi nó là “dấu gạch ngang”, hoặc “gạch nối”, “dấu gạch”, “dấu nối” khi đánh vần URL. Cuối cùng, với nhiều người sử dụng thiết bị di động, gõ ký tự này có thể yêu cầu phải nhấn đúp phím shifts.

Có hơn 12 triệu tên miền đã đăng ký có sử dụng gạch nối (đại diện cho khoảng 11,8% trên tổng số). Nhiều tên miền trong số này tôi nghi ngờ là kiểu mua phòng thủ, và trong nghiên cứu cho bài đăng này, nhiều URL tôi nhập vào có gạch nối đơn giản là đã chuyển người dùng đến một tên miền mới thích hợp hơn (redirect). Trong không gian .net, tỷ lệ cao hơn với 13,1% tên miền có gạch nối.

Tần số

Không phải tất cả các ký tự được sử dụng ngang nhau trong tên miền. Có tổng cộng 1,392,049,701 ký tự được sử dụng để đại diện cho 102,815,927 tên miền .com

Dưới đây là bảng phân phối tương đối:

Thứ tựKý tựTần suất
#1E141,646,533
#2A123,868,625
#3I100,401,072
#4O96,790,706
#5S96,189,067
#6R94,784,191
#7N93,320,130
#8T88,697,233
#9L69,479,211
#10C57,324,556
#11D43,903,797
#12M41,929,347
#13U41,562,591
#14H38,309,479
#15P35,773,302
#16G35,272,868
#17B28,121,111
#18Y25,037,505
#19F21,407,914
#20K19,964,847
#21W17,464,287
#22V16,644,742
#2316,236,169
#24X7,320,389
#25J7,264,260
#26Z6,583,320
#2713,957,814
#2823,557,306
#29Q2,975,019
#3002,913,777
#3142,065,220
#3231,936,546
#33.1,935,919
#3481,794,959
#3551,564,812
#3661,393,887
#3791,382,868
#3871,274,322

Điều thú vị cần lưu ý là phân phối này khác với mẫu truyền thống được sử dụng trong tiếng Anh: E, T, A, I, O, N, S, H, R, D, L…

Cái này có thể được giải thích rằng trong thực tế các tên miền không chỉ được sử dụng cho người tiêu dùng nói tiếng Anh. Mặc dù các quốc gia khác nhau có đuôi tên miền của riêng họ, kể từ khi .com trở thành lingua franca (ngôn ngữ cầu nối, giống kiểu từ OK, được hiểu gần giống nhau tại hầu hết mọi nơi trên thế giới), nhiều doanh nghiệp đơn giản mặc định sử dụng .com luôn.

Ký tự có mức độ phổ biến thấp nhất là Q, thậm chí ký tự số 1 và 2 còn xuất hiện với tần suất cao hơn so với nó. Ký tự số có mức độ phổ biến thấp nhất trong không gian tên miền .com là số 7.

Các nhóm 2 từ, 3 từ, 4 từ, (và bất cứ điều gì mà họ gọi là 5 từ!)

Một số cặp ký tự xuất hiện với tấn số thường xuyên hơn so với những cái khác. Tìm kiếm thông qua không gian tên miền .com, có thể xác định rằng cặp ký tự IN xuất hiện với tần số cao hơn so với bất kỳ các cặp ký tự nào khác (với tần số lặp lại là 23,193,376 lần). Dưới đây là top 120 cặp ký tự:

#1IN23,193,376
#2ER22,045,322
#3AN18,633,554
#4ES16,983,404
#5ON16,271,855
#6RE16,070,874
#7AR15,082,764
#8AL13,773,410
#9ST13,516,029
#10EN13,434,330
#11TE13,232,970
#12OR13,137,866
#13TI11,630,714
#14LE11,455,196
#15RA11,447,567
#16NE10,731,677
#17NG10,589,719
#18AT10,325,754
#19NT10,201,868
#20RI9,864,274
#21LI9,653,122
#22CO9,325,669
#23LA9,300,814
#24MA9,149,085
#25TO9,143,487
#26EA8,916,932
#27EL8,844,154
#28DE8,781,881
#29RO8,764,327
#30NS8,737,029
#31IC8,699,288
#32TA8,437,680
#33CA8,421,233
#34ME8,282,189
#35CH8,181,017
#36AS8,047,599
#37HO7,954,085
#38ND7,924,789
#39HE7,833,639
#40IT7,746,934
#41SE7,715,012
#42ET7,542,073
#43IS7,387,741
#44TH7,376,080
#45IO6,808,156
#46LL6,803,100
#47SI6,783,264
#48OU6,761,302
#49UR6,534,693
#50LO6,499,349
#51TR6,448,385
#52NA6,401,442
#53RT6,391,591
#54EC6,387,507
#55CE6,288,226
#56DI6,238,405
#57VE6,235,411
#58IL6,159,701
#59AC6,109,501
#60OL5,999,110
#61RS5,962,453
#62AM5,867,200
#63IA5,846,628
#64SA5,801,203
#65HA5,732,145
#66ED5,711,386
#67OM5,701,672
#68NI5,370,265
#69PA5,283,311
#70SH5,249,674
#71GE5,190,053
#72SO5,108,273
#73IE5,050,900
#74US5,030,948
#75AD4,938,913
#76TS4,910,822
#77SS4,906,823
#78VI4,906,818
#79AI4,875,583
#80OT4,869,671
#81NC4,825,712
#82MO4,760,025
#83HI4,749,105
#84OS4,711,684
#85DA4,603,390
#86PE4,532,226
#87BA4,513,833
#88EE4,456,735
#89PR4,437,297
#90OO4,425,562
#91MI4,418,683
#92EM4,391,197
#93UN4,286,124
#94BE4,271,960
#95IR4,099,976
#96KE3,996,087
#97PO3,945,584
#98AP3,808,451
#99UT3,798,122
#100GA3,796,346
#101AG3,780,466
#102SC3,645,046
#103ID3,630,847
#104DO3,592,374
#105IG3,582,602
#106NO3,550,662
#107CT3,529,155
#108WE3,505,427
#109OP3,489,397
#110GR3,436,742
#111BO3,432,061
#112FI3,393,118
#113SU3,377,709
#114CK3,325,733
#115FO3,316,860
#116CI3,289,758
#117SP3,262,011
#118OD3,147,594
#119TU3,075,995
#120EB3,002,441

Chuyển sang từ dạng 3 ký tự, chúng tôi nhận thấy tần số cao nhất thuộc về ING với số lần tìm thấy là 7,402,227 lần. Một điểm thú vị cần lưu ý là mặc dù THE và AND có xếp hạng cao trong danh sách, nó vẫn không đánh bại được ING (phổ biến cho dạng động từ -ing trong tiếng Anh).

Vì tôi biết một số bạn sẽ tò mò, chuỗi SEX xuất hiện theo thứ tự ở vị trí #830 với 339,802 lần trong tên miền .com

#1ING7,402,227
#2ION4,822,392
#3ENT4,451,444
#4TER3,967,305
#5AND3,942,141
#6THE3,550,009
#7TIO3,537,762
#8ERS3,457,584
#9INE3,294,442
#10EST3,250,273
#11LIN2,903,029
#12ATI2,759,932
#13ONS2,654,525
#14ATE2,430,697
#15TIN2,397,200
#16TOR2,393,355
#17ART2,353,882
#18RES2,343,289
#19TRA2,332,510
#20STA2,284,291
#21PRO2,123,707
#22REA2,105,693
#23RAN2,092,965
#24CON2,082,868
#25ALL2,070,656
#26ORT2,059,681
#27ESS2,025,271
#28NTE2,012,337
#29LAN2,004,800
#30FOR1,991,104
#31STE1,941,777
#32CAR1,938,491
#33MAR1,935,419
#34LES1,925,969
#35STO1,923,055
#36VER1,886,713
#37ANC1,883,790
#38ALE1,818,891
#39IST1,802,642
#40INT1,801,195
#41OME1,794,527
#42ANT1,775,946
#43PER1,757,252
#44AGE1,747,623
#45ILL1,738,483
#46EAL1,730,384
#47MEN1,686,776
#48NCE1,679,483
#49ERI1,672,661
#50ICA1,672,360
#51ELL1,650,992
#52ARE1,648,406
#53REE1,630,078
#54LLE1,611,347
#55TAL1,610,718
#56OUR1,589,818
#57ONE1,586,445
#58ICE1,578,147
#59MAN1,562,247
#60STR1,558,690
#61COM1,557,329
#62NES1,556,766
#63SIN1,534,106
#64ORE1,511,463
#65SHO1,508,233
#66CHE1,506,047
#67IVE1,498,635
#68SER1,485,235
#69AIN1,470,391
#70CHA1,466,781
#71STI1,450,094
#72ECT1,439,995
#73IDE1,437,605
#74RIN1,436,529
#75AST1,431,439
#76POR1,430,462
#77CHI1,421,418
#78HER1,421,325
#79DER1,412,386
#80ITE1,395,460
#81ARD1,393,607
#82PAR1,391,007
#83DES1,381,508
#84SON1,381,487
#85INS1,366,380
#86NER1,361,337
#87EDI1,360,163
#88ERT1,355,165
#89INA1,331,050
#90NTA1,325,359
#91ANG1,323,553
#92HOT1,322,784
#93IAN1,321,398
#94RIC1,317,343
#95TON1,313,181
#96IND1,301,584
#97REN1,280,235
#98ESI1,278,969
#99HOM1,278,689
#100ANA1,273,481
#101EAR1,268,724
#102WOR1,261,552
#103HEA1,253,535
#104ECO1,250,956
#105AME1,238,717
#106GRA1,233,766
#107IES1,216,401
#108TIC1,211,928
#109CTI1,208,389
#110ARI1,202,371
#111URE1,201,484
#112MER1,197,687
#113ERA1,193,752
#114ELE1,189,551
#115HIN1,187,544
#116ASS1,186,078
#117ERE1,184,471
#118NLI1,184,337
#119ALI1,183,155
#120TUR1,182,331

Dưới đây là bảng cho các cụm từ có 4 ký tự. Giờ đây chúng ta có thể bắt đầu nhìn thấy chuỗi con của các từ rất phổ biến. Tôi hơi bất ngờ vì FREE chỉ đứng ở vị trí thứ 69, nhưng nó vẫn ấn tượng khi có tới hơn 500 ngàn tên miền chứa chuỗi FREE (một chút lưu ý nâng cao cho những ai là fan hâm mộ cho các cụm từ phổ biến – số liệu trong các bảng này thể hiển tần số khớp chính xác của những chuỗi này, không phải là số lượng tên miền có chứa chuỗi. Lấy ví dụ, số lượng tên miền chứa từ FREE là 525,448 tên miền trong khi bảng cho thấy tần số của nó là 527,809. Tại sao có sự khác biệt này? Đơn giản vì một số tên miền có chứa nhiều hơn một từ FREE!)

#1TION3,488,333
#2ATIO1,757,364
#3TING1,574,233
#4IONS1,335,966
#5LINE1,281,210
#6NTER1,271,171
#7MENT1,248,400
#8HOME1,142,975
#9PORT1,078,931
#10ANCE1,039,416
#11NLIN1,006,019
#12ONLI1,001,340
#13SERV969,629
#14LAND930,140
#15INGS912,074
#16SIGN893,141
#17XN–853,718
#18INTE825,806
#19ERVI822,265
#20CTIO807,484
#21IGHT799,786
#22DESI798,598
#23ESIG774,347
#24VICE751,564
#25STOR750,355
#26STER725,532
#27DING724,758
#28MEDI720,883
#29RVIC720,437
#30NS1.717,066
#31ESTA716,667
#32REAL711,143
#33EALT710,484
#34CONS709,192
#35SHOP708,987
#36NS2.699,106
#37CENT698,522
#38ENTE685,673
#39INES677,334
#40COMP660,084
#41NING650,625
#42GROU650,314
#43MARK647,324
#44TURE642,651
#45PHOT633,798
#46NESS632,291
#47HOTO630,338
#48TECH626,769
#49THER626,745
#50WORK622,839
#51OUNT595,546
#52RANC595,149
#53LING594,830
#54ALES592,989
#55ROUP589,783
#56STAT587,880
#57ENTA582,465
#58SION581,508
#59TERS579,542
#60PART573,153
#61RING559,112
#62SALE557,777
#63STIN557,588
#64ENTS551,485
#65HOUS548,517
#66KING542,883
#67COUN529,230
#68ONAL527,809
#69FREE527,595
#70ARKE526,117
#71REAT525,958
#72IONA521,854
#73AUTO519,532
#74ICES509,800
#75CTOR502,528
#76ALTH502,227
#77YOUR498,557
#78CIAL498,392
#79OMES498,037
#80TORE491,740
#81HING487,146
#82OGRA485,742
#83TATE483,941
#84TIVE481,271
#85OUSE481,241
#86URAN480,572
#87OTEL478,484
#88CHIN476,787
#89UTIO475,655
#90SPOR475,653
#91ITAL473,510
#92BOOK472,095
#93CARE472,038
#94HEAL471,643
#95ATER470,263
#96BEST470,175
#97RKET469,833
#98GRAP469,391
#99SAND467,903
#100STUD467,322
#101RAPH465,722
#102OLUT465,431
#103TERN463,946
#104ALLE463,517
#105DENT463,392
#106EDIA461,549
#107EMEN460,022
#108RICA457,796
#109RENT456,295
#110RESS455,265
#111LIFE453,744
#112NDER451,107
#113ICAL449,954
#114GREE449,776
#115LUTI449,660
#116ILLE448,233
#117REEN447,048
#118VERS447,032
#119PRES445,529
#120VENT442,102

Và cuối cùng là bảng gồm top 120 mẫu 5 ký tự. Ở đây các từ đã trở nên rõ ràng hơn. Nhìn vào danh sách này sẽ là bài tập khá thú vị để đoán xem tên miền gốc chứa những ký tự này là gì.

#1ATION1,735,530
#2TIONS1,134,141
#3NLINE984,560
#4ONLIN971,756
#5CTION805,503
#6ESIGN767,702
#7SERVI759,486
#8DESIG757,231
#9ERVIC718,419
#10RVICE694,050
#11PHOTO624,232
#12INTER619,105
#13GROUP586,612
#14ENTER535,085
#15EALTH478,542
#16MARKE477,951
#17UTION474,667
#18ARKET465,762
#19COUNT464,850
#20STATE462,895
#21HOMES461,746
#22GRAPH453,391
#23SPORT452,938
#24LUTIO445,856
#25OLUTI442,088
#26HOUSE439,230
#27HOTEL430,347
#28SOLUT421,275
#29WORLD419,720
#30EMENT417,623
#31UCTIO413,506
#32STORE406,636
#33HEALT404,053
#34ENTAL402,259
#35RANCE400,607
#36MEDIA396,040
#37VICES391,582
#38CONSU382,581
#39IONAL381,293
#40ESTAT375,826
#41STUDI371,288
#42PRODU370,826
#43MUSIC367,149
#44GREEN364,664
#45RODUC360,858
#46OGRAP357,465
#47TUDIO357,402
#48ONSUL356,447
#49TIONA352,751
#50NSULT351,168
#51CATIO348,964
#52TOGRA348,431
#53CENTE340,501
#54USINE339,681
#55INESS339,027
#56OTOGR338,962
#57ODUCT333,345
#58SINES331,515
#59MOBIL330,525
#60TRAVE327,196
#61NATIO326,712
#62HOTOG326,706
#63RAVEL323,398
#64BUSIN321,811
#65ETING321,577
#66NTERN318,557
#67COMPA311,167
#68INSUR308,468
#69URANC305,892
#70PORTS305,602
#71SURAN303,164
#72STING300,157
#73RAPHY288,645
#74ALEST287,773
#75ELECT286,249
#76LESTA283,264
#77NSURA283,217
#78LIGHT283,044
#79AMERI282,633
#80MENTS281,103
#81ERICA280,697
#82TWORK278,375
#83KETIN277,880
#84RKETI277,557
#85REALE274,945
#86MERIC274,523
#87ROPER273,980
#88PROPE273,710
#89PRESS272,991
#90EALES270,742
#91CREAT270,015
#92SYSTE269,157
#93SCHOO268,952
#94DIREC267,861
#95YSTEM266,582
#96IRECT266,558
#97OPERT266,462
#98CHOOL265,840
#99SOCIA265,413
#100VILLE259,832
#101VIDEO259,764
#102TMENT251,356
#103ECTIO248,383
#104CHRIS245,314
#105FAMIL244,913
#106ETWOR244,643
#107GUIDE244,638
#108OMPAN243,981
#109TRANS243,471
#110NETWO241,831
#111SIGNS239,523
#112REATI235,494
#113CLEAN235,330
#114RENTA234,122
#115CENTR233,177
#116MEDIC233,069
#117EARCH231,572
#118WATER229,956
#119LECTR229,101
#120SSION227,410

OK, bảng đã đủ rồi, quay lại biểu đồ thôi

Chúng ta đã biết ký tự phổ biến nhất trong tên miền là từ nào rồi, nhưng ký tự nào là ký tự bắt đầu phổ biến nhất cho tên miền? Chúng tôi đã thực hiện nhanh một truy vấn để tìm ra điều này:

ký tự bắt đầu phổ biến nhất

Số bắt đầu phổ biến nhất là số 1, nhưng tên miền bắt đầu với số ít hơn nhiều so với tên miền bắt đầu với ký tự. Mặc dù thứ tự tần số của các ký tự lần lượt là E, A, I, ký tự bắt đầu phổ biến nhất cho tên miền là ký tự S, tiếp theo sau đó là ký tự C và M. Ký tự bắt đầu ít phổ biến nhất là ký tự Q.

Ký tự kết thúc

Cùng kiểu thống kê nhưng lần này là cho ký tự kết thúc. Lưu ý là hai biểu đồ có tỷ lệ khác nhau. Một lần nữa S là ký tự kết thúc phổ biến nhất, nhưng với tần suất gấp đôi. (Tôi đoán rằng có rất nhiều tên miền được viết dưới dạng số nhiều).

ký tự kết thúc trong tên miền

Ngay sau S, ký tự kết thúc phổ biến tiếp theo là ký tự E và T

Biểu đồ hỗn hợp

Bên dưới là biểu đồ hỗn hợp cho thấy tần suất của ký tự bắt đầu và kết thúc trong cùng một thang đo:

ký tự bắt đầu và kết thúc trong cùng một thang đo

Y không phải là ký tự bắt đầu phổ biến nhưng nó lại là ký tự kết thúc phổ biến. Ngược lại B, F, J và V xuất hiện khá thường xuyên ở vị trí đầu nhưng không nhiều ở vị trí cuối. Điều này có lẽ không phải là ngạc nhiên với những ai biết về tiếng Anh.

Tương quan chéo

Thế về tương quan chéo thì sao? Có mối tương quan tương đối nào giữa ký tự kết thúc so với ký tự bắt đầu? Biểu đồ nhiệt bên dưới đây cho thấy dữ liệu đó. Màu càng sáng, mối tương quan càng mạnh. Trục tung trên biểu đồ là cho ký tự bắt đầu, trục hoành trên biểu đồ là cho ký tự kết thúc.

tương quan giưa ký tự bắt đầu và kết thúc trong tên miền

Ô vuông sáng nhất trên biểu đồ là S%S, chúng xuất hiện đến 1,869,669 lần; sự kết hợp phổ biến nhất của ký tự đầu và ký tự cuối.

Với những ai không quen thuộc với SQL thì ký tự % biểu thị cho bất kỳ ký tự nào. Tôi sử dụng thang đo logarit để tạo thành bảng màu trên.

Tên miền đa ngữ

Là các tên miền có chứa các ký tự bản địa không có trong bảng chữ cái Latinh. Các tên miền như vậy nằm ngoài phạm vi của bài viết này.

(Dịch từ bài viết Domain Name Analysis – website: DataGentics)

0 bình luận

Khu vực bình luận

avatar