Thứ Ba, 15/02/2011 - 2:16 GMT+07
 In
 Email   
   
Công nghệ nhận dạng domain thương hiệu

Tự động Nhận dạng tiếng Việt : Một hướng ứng dụng thú vị

Cơ hội tìm kiếm nhiều domain đẹp cho người Việt

Tên miền (domain) là một phần quan trọng cấu thành thương hiệu của doanh nghiệp. Nó đặc biệt quan trong dối với những doanh nghiệp kinh doanh trên môi trường mạng toàn cầu (Internet). Do chủ quan, nhiều doanh nghiệp đã đánh mất tên miền mang thương hiệu của mình, sau đó những vấn đề phát sinh quanh tên miền đã gây ảnh hưởng xấu đến hình ảnh của doanh nghiệp. gần đây báo chí có đưa tin về doanh nghiệp bị đình đốn kinh doanh trong một thới gian dài do mất tên miền.

Với các doanh nghiệp có quy mô và nhận thức được sự quan trọng của tên miền thương hiệu, bộ phẩn quản lý đã tìm cách nhiều cách để lấy lại được tên miền đã mất. Tuy nhiên việc này khá tốn thời gian và tiền bạc, đồng thời các cách giành lại domain "không chính thống" cũng không tạo được sự an tâm.

Có hay không một phương thức có thể tự động tìm kiếm và giành lại các tên miền thương hiệu cho doanh nghiệp ? Câu trả lời là có. Đơn giản là tự động tìm những tên miền tiếng việt và thông báo cho doanh nghiệp mang thương hiệu để đăng ký dành lại. Bài toán đặt ra là làm thế nào để có thể nhận dạng được những tên miền là tên miền tiếng việt có ý nghĩa trong danh sách các tên miền quốc tế với hơn 160 quốc gia trên toàn thế giới. Đây là một vấn đề không phải đơn giản.

Bài viết này sẽ trình bày sơ lược cấu trúc dữ liệu, thuật toán giải quyết bài toán trên. Kết quả đánh giá, và sử dụng hệ thống thật có thể xem thêm tại website www.fiboweb.com

1. Sơ lược về cấu trúc tiếng Việt

Đã có nhiều bài viết về cấu trúc tiếng Việt, do đó bài viết này chỉ nếu lên một số cách tiếp cận ứng dụng công nghệ tri thức để giải bài toàn : "Tự Động Nhận Dạng các tên miền có Tiếng Việt"

Cấu trúc chính của phương pháp sẽ xoay quanh đến thành phần nhỏ nhất của tiếng Việt : Từ

Danh sách âm tiết tiếng Việt

  • Đơn âm
    • a ă â b c d đ e ê g h i k l m n o ô ơ p q r s t u ư v x y
    • a á à ả ã ạ
    • e é è ẻ ẽ ẹ
    • ê ế ề ể ễ ệ
    • i í ì ỉ ĩ ị
    • ó ò ỏ õ ọ
    • ô ố ồ ổ ỗ ộ
    • ơ ớ ờ ở ỡ ợ
    • u ú ù ủ ũ ụ
    • ư ứ ừ ử ữ ự
    • y ý ỳ ỷ ỹ ỵ
  • Phụ âm đầu
    • tr ch ng ngh nh gh gi qu ph kh th
    • b c d g h k l m n p q r s t v x
  • Phụ âm cuối
    • ác ạc ách ạch ai ái ài ải ãi ại am ám àm ảm ãm ạm an án àn ản ãn ạn ang áng àng ãng ảng ạng anh ánh …
    • ắc ặc ăm ắm ằm ẳm ẵm ặm ăn ắn ằn ẳn ặn ăng ắng ằng ẳng ẵng ặng ắp ặp…
    • ấc ậc ất ật âm ấm ầm ẩm ẫm ậm ân ấn ần ẩn ận uấng ầng ẩng ấp ập ây ấy ầy ẩy ẫy ậy âu ấu ầu ẩu ẫu ậu…
    • eo èo éo ẻo ẽo ẹo éc ét ẹt em ...
    • êm ếm ềm ểm ễm ệm ên ến ền ển ện ệnh …
    • ia ía ìa ỉa ĩa ịa in ín ìn ỉn ĩn ịn im ím ìm ỉm ĩm ịm íc ịc ích ịch iên iến iền iển iễn iện iêng iếng iềng iểng iệng iêm iếm iềm iểm iễm iệm ….
    • oa óa òa ỏa õa ọa oác oạc oách oạch oát oạt oắt oặt oắc oặc oam oạm oan oán oàn oản oãn oạn oang oáng oàng oảng oạng oắm oăn oắn oằn óc ọc óch oi ói òi ỏi õi ọi om óm …
    • ốc ộc ôi ối ồi ổi ỗi ội ôm ốm ồm ổm ỗm ộm ôn ốn ồn ổn ỗn ộn ông ống ồng …
    • ơi ới ời ởi ỡi ợi ơm ớm ờm ởm ợm ơn ớn ờn ởn ỡn ợn ớp ợp ớt ợt…
    • ua úa ùa ủa ụa úc ục uê uế uề uệ ui úi ùi ủi ũi ụi um úm ùm ủm ũm ụm un ún ùn ủn ũn ụn ung úng ùng ủng ũng ụng úp ụp út ụt uy úy ùy ủy ũy ụy uyên …
    • ưa ứa ừa ửa ữa ựa ức ực ưi ửi ừm ưng ứng ừng ửng ững ựng ướu ượu ươi ưới ười ưởi ưỡi ượi ươn ướn ườn ưởn ượn ….
    • yêu yếu yểu yên yến yết yểm yếm….

Một từ đơn tiếng Việt được kết hợp trong 02 trường hợp sau :

  • Nguyên âm : các từ có các chữ sau đứng trước : a,i,e,u,o
    • Vd : ang, anh, ình, em, ùng, ủa, ôm, ồn
  • Từ sự kết hợp : phụ âm đầu + phụ âm cuối
    • Vd : Tr + các từ có chữ A đứng đầu
      • trác trạc trách trạch trai trái trài trải trãi trại tram trám tràm trảm trãm trạm tran trán tràn trản trãn trạn trang tráng tràng trãng trảng trạng tranh tránh trành trảnh trãnh trạnh trát trạt trau tráu tràu trạu tray tráy trày trảy trãy trạy tráp trạp trao trào tráo trảo trão trạo
    • Vd : Th + các từ có chữ U đứng đầu
      • thua thúa thùa thủa thụa thúc thục thuê thuế thuề thuệ thui thúi thùi thủi thũi thụi thum thúm thùm thủm thũm thụm thun thún thùn thủn thũn thụn thung thúng thùng thủng thũng thụng thúp thụp thút thụt thuy thúy thùy thủy thũy thụy thuyên thuyến thuyền thuyển thuyện thuyết thuyệt thuốc thuộc thuốt thuột thuếch thuệch thuông thuống thuồng thuộng thuếnh thuôi thuối thuồi thuỗi thuội thuốm thuộm
    • -> Sự tổ hợp này tạo nên một số lượng khổng lồ các từ tiếng Việt.

2. Hướng đi nhằm tách lọc domain tiếng Việt

Qua mô tả sơ lược về cấu trúc "Từ" tiếng Việt, ta sẽ tập trung vào cấu trúc này để giải quyết bài toán đặt ra phía trên.

Lý do : nếu 01 domain có chứa một vài từ tiếng Việt, có thể suy diễn domain này là domain "chứa tiếng Việt", và tách ra ngoài ( dĩ nhiên sẽ có các biện pháp hạn chế suy diễn sai, hoặc nâng cao quá trình tự học thông qua cơ chế suy diễn Heuristic )

Vd : nhìn vào danh sách này, với cách diễn đạt trên, hệ thống có thể tự nhận ra các domain "có chứa tiếng Việt"

  • Nguyenhoanginformatics.com
  • Thanhspa.net
  • Trungleon.net
  • tinhoc-giaitri.biz
  • phongcach9x
  • vuoncanh.com
  • khangthinhhotel.com
  • linhkienvitinh.net
  • sieuthicanho.com
  • thitruongvang.com

Trước tiên, ta xét 1 trường hợp cụ thể
Vd : domain dongau.com
Nếu phân tích tự động, có thể ra : Do Ngau, Dong Au, Don Gau, Do Nga U

Tiêu chí tách domain : Tính điểm dựa theo chiều dài

  • Từ càng dài điểm càng cao :
    • Từ có 1 chữ : 0 điểm
    • Từ có 2 chữ : 0.5 điểm
    • Từ có 3 chữ : 1 điểm
    • Từ có 4 chữ : 2 điểm
    • Từ có 5 chữ : 3 điểm
    • Từ có 6 chữ : 4 điểm
    • Vd :
      • Dongau.com có thể tách ra thành nhiều từ
        • do ngau : 0.5+2=2.5
        • dong au : 2 + 0.5 =2.5
        • don gau : 1+1=2
        • do nga u : 0.5+1+0=1.5
      • Khangthinhhotel.com
        • Khang + thinh + ho + te = 3 + 3 + 0.5 + 0.5 = 9 điểm
      • Yeuem.com
        • Yeu + em : 1 +1 = 2
        • Yeu + e : 1 + 0 = 1
      • laccanhdainamvanhien.asia
        • Lac canh dai nam van hien
        • Lac canh dai nam vanh ien
        • Lac canh dai nam vanh ien
        • Lac canh da in am va nhien
        • …………
  • Như vậy các domain càng có nhiều từ tiếng Việt, có nhiều từ DÀI trong tiếng Việt sẽ được ưu tiên đưa lên trên cùng
    • vuotlenchinhminh.com ( có > 4 từ tiếng Việt )
    • chauphong.com ( > 2 từ tiếng Việt )
    • vietnamdatnuocconnguoi.com ( có > 6 từ tiếng Việt )
  • Cấu trúc dữ liệu
    • Do đã xác định mục tiêu, nên cách tiếp cận và giải quyết vấn đề được phân tích ra thành 02 công việc chính như sau :
      • TÁCH một domain thành nhiều từ, ưu tiên phân tích từ càng dài càng tốt
      • Đánh giá và tính điểm về độ dài của một domain

Ta sẽ tiếp cận theo phương án CÂY phân rã như sau

caytiengviet.JPG

3. Nhận xét

Đây chỉ là một bài viết sơ lược về cách tiếp cận theo cấu trúc CÂY để giải quyết vấn đề đặt ra, để nâng cao tính chính xác và làm cho hệ thống "Thông Minh Hơn" cần có các giải thuật mang tính Heuristic áp dụng vào ( tự động nhận dạng theo ngữ nghĩa, theo cấu trúc, theo vần…)

Kết quả hiện tại (www.fiboweb.com )

  • Mỗi ngày với hơn 2000 domain tiếng Việt được tách ra
  • Trên 100 domain thương hiệu đươc xác định chính xác

* Phiên bản 2.0 đã thử nghiệm thành công và đưa vào sử dung, hệ thống có thể tách được hơn 6000 domain/ngày.

 


Phòng Công Nghệ

Fibo | Simple - Effective

Tài liệu tham khảo :
- LêXuân Thại. Câu chủ vị tiếng Việt. Nxb KHXH, Hà Nội,1994.
- Diệp Quang Ban. Cấu tạo câu đơn tiếng Việt. Trường ĐHSP Hà Nội, 1984.
- Nguyễn Minh Thuyết, Nguyễn Văn Hiệp. Lý thuyết thành phần câu và thành phần câu tiếng Việt. Nxb ĐạHQG Hà Nội, 1998
- Đỗ Xuân Lôi . "Cấu trúc dữ liệu và giải thuật". Nhà xuất bản khoa học và kỹ thuật. Hà nội, 1995


Các thông tin về hoạt động, dịch vụ nền Web, domain, hosting, sever......
Các công nghệ mới phát triển hoặc triển khai công nghệ mới nhất vào dịch vụ có sẵn......
Chương trình khuyến mãi, giảm giá, các ưu đãi với khách hàng thân thiết....