- Phòng kinh doanh
- www.fibo.vn
- News
- Forum
- Support
- Hotline: (08) 73037399 | Ext-Support: 1689 – 1618 | Ext-Sales: 1223
Tự động Nhận dạng tiếng Việt : Một hướng ứng dụng thú vị
Cơ hội tìm kiếm nhiều domain đẹp cho người Việt
Tên miền (domain) là một phần quan trọng cấu thành thương hiệu của doanh nghiệp. Nó đặc biệt quan trong dối với những doanh nghiệp kinh doanh trên môi trường mạng toàn cầu (Internet). Do chủ quan, nhiều doanh nghiệp đã đánh mất tên miền mang thương hiệu của mình, sau đó những vấn đề phát sinh quanh tên miền đã gây ảnh hưởng xấu đến hình ảnh của doanh nghiệp. gần đây báo chí có đưa tin về doanh nghiệp bị đình đốn kinh doanh trong một thới gian dài do mất tên miền.
Với các doanh nghiệp có quy mô và nhận thức được sự quan trọng của tên miền thương hiệu, bộ phẩn quản lý đã tìm cách nhiều cách để lấy lại được tên miền đã mất. Tuy nhiên việc này khá tốn thời gian và tiền bạc, đồng thời các cách giành lại domain "không chính thống" cũng không tạo được sự an tâm.
Có hay không một phương thức có thể tự động tìm kiếm và giành lại các tên miền thương hiệu cho doanh nghiệp ? Câu trả lời là có. Đơn giản là tự động tìm những tên miền tiếng việt và thông báo cho doanh nghiệp mang thương hiệu để đăng ký dành lại. Bài toán đặt ra là làm thế nào để có thể nhận dạng được những tên miền là tên miền tiếng việt có ý nghĩa trong danh sách các tên miền quốc tế với hơn 160 quốc gia trên toàn thế giới. Đây là một vấn đề không phải đơn giản.
Bài viết này sẽ trình bày sơ lược cấu trúc dữ liệu, thuật toán giải quyết bài toán trên. Kết quả đánh giá, và sử dụng hệ thống thật có thể xem thêm tại website www.fiboweb.com
1. Sơ lược về cấu trúc tiếng Việt
Đã có nhiều bài viết về cấu trúc tiếng Việt, do đó bài viết này chỉ nếu lên một số cách tiếp cận ứng dụng công nghệ tri thức để giải bài toàn : "Tự Động Nhận Dạng các tên miền có Tiếng Việt"
Cấu trúc chính của phương pháp sẽ xoay quanh đến thành phần nhỏ nhất của tiếng Việt : Từ
Danh sách âm tiết tiếng Việt
Một từ đơn tiếng Việt được kết hợp trong 02 trường hợp sau :
2. Hướng đi nhằm tách lọc domain tiếng Việt
Qua mô tả sơ lược về cấu trúc "Từ" tiếng Việt, ta sẽ tập trung vào cấu trúc này để giải quyết bài toán đặt ra phía trên.
Lý do : nếu 01 domain có chứa một vài từ tiếng Việt, có thể suy diễn domain này là domain "chứa tiếng Việt", và tách ra ngoài ( dĩ nhiên sẽ có các biện pháp hạn chế suy diễn sai, hoặc nâng cao quá trình tự học thông qua cơ chế suy diễn Heuristic )
Vd : nhìn vào danh sách này, với cách diễn đạt trên, hệ thống có thể tự nhận ra các domain "có chứa tiếng Việt"
Trước tiên, ta xét 1 trường hợp cụ thể
Vd : domain dongau.com
Nếu phân tích tự động, có thể ra : Do Ngau, Dong Au, Don Gau, Do Nga U
Tiêu chí tách domain : Tính điểm dựa theo chiều dài
Ta sẽ tiếp cận theo phương án CÂY phân rã như sau
3. Nhận xét
Đây chỉ là một bài viết sơ lược về cách tiếp cận theo cấu trúc CÂY để giải quyết vấn đề đặt ra, để nâng cao tính chính xác và làm cho hệ thống "Thông Minh Hơn" cần có các giải thuật mang tính Heuristic áp dụng vào ( tự động nhận dạng theo ngữ nghĩa, theo cấu trúc, theo vần…)
Kết quả hiện tại (www.fiboweb.com )
* Phiên bản 2.0 đã thử nghiệm thành công và đưa vào sử dung, hệ thống có thể tách được hơn 6000 domain/ngày.
Phòng Công Nghệ
Fibo | Simple - Effective
Tài liệu tham khảo :
- LêXuân Thại. Câu chủ vị tiếng Việt. Nxb KHXH, Hà Nội,1994.
- Diệp Quang Ban. Cấu tạo câu đơn tiếng Việt. Trường ĐHSP Hà Nội, 1984.
- Nguyễn Minh Thuyết, Nguyễn Văn Hiệp. Lý thuyết thành phần câu và thành phần câu tiếng Việt. Nxb ĐạHQG Hà Nội, 1998
- Đỗ Xuân Lôi . "Cấu trúc dữ liệu và giải thuật". Nhà xuất bản khoa học và kỹ thuật. Hà nội, 1995