MÁY TÌM KIẾM DỰA TRÊN KHAI PHÁ QUERY LOG
Trong thời đại bùng nổ thông tin, các lĩnh vực trong cuộc sống rất phong phú, số lượng chủng loại sản phẩm rất lớn. Để có hệ tư vấn dựa trên chuyên gia hay những bộ tiêu chuẩn cụ thể như vậy trên mọi lĩnh vực, mọi sản phầm là điều không thể.
Khi cần tìm thông tin về một sản phẩm nào đó, giải pháp được hầu hết người dùng sử dụng là đưa câu hỏi vào máy tìm kiếm thay vì tìm đến những website/forum chuyên ngành. Tuy nhiên, máy tìm kiếm không phải lúc nào cũng hiệu quả.
Ví dụ, một du khách lần đầu đến Hà Nội, muốn tìm khách sạn bằng query: “hanoi hotel”, sẽ nhận được từ Google gần hai triệu kết quả trả về. Hầu hết mọi khách sạn trong danh sách kết quả đều xa lạ và tự quảng cáo mình là tốt nhất, làm cho du khách bối rối trong biển thông tin. Không thể có thời gian để tìm hiểu lại về từng khách sạn (dù chỉ là trong 10-20 kết quả đầu); người khách cần lời khuyên cho trường hợp này.
Những nhu cầu như vậy có thể bắt gặp rất nhiều trong cuộc sống hàng ngày, ngay cả khi người ta tìm kiếm những sản phầm đơn giản như một chiếc đầu DVD, một hãng sơn, một công ty taxi …, mà vì không có thông tin nên với họ mọi thương hiệu đều như nhau. Cần có một phương pháp có thể đưa ra gợi ý, tư vấn cho người dùng đủ tốt để áp dụng cho những chủ đề rất đa dạng của cuộc sống. Một giải pháp rất tốt và hiệu quả là gợi ý dựa trên chính kinh nghiệm của những người đã từng tìm về chủ đề này trước đó. Những thông tin được lưu lại trong log của máy tìm kiếm sẽ cho biết những người tìm về chủ đề đó thường hay truy cập vào website nào.
Những website này đã qua hai lần lọc một của máy tìm kiếm và một của người dùng (không phải ngẫu nhiên mà nhiều người dùng lại có cùng một lựa chọn). Đôi khi những kết quả này còn tốt hơn cả kết quả máy tìm kiếm trả lại. Ví dụ: những website tin tức lớn,được nhiều người tìm & truy cập nhất của Vietnam như: VnExpress, Vietnamnet, Dân Trí… đều không xuất hiện trong top 10 khi tìm “vietnam news” trên cả Yahoo & Live Search (phiên bản mới của MSN).
Bài toán khai phá query logs là bài toán phải xử lý khối lượng dữ liệu rất lớn (lên tới hàng gigabyte) nên việc chọn được một thuật toán tốt và hiệu quả về thời gian là rất khó khăn. tập trung vào việc thống kê website và khai phá mẫu có thứ tự (tìm ra quy luật giữa từ khóa trong query và url được click) để đưa ra tư vấn.
Chương 1. Tổng quan về hệ tư vấn: Trình bày những nội dung cơ bản về hệ tư vấn (các hệ thống nổi tiếng, mô tả bài toán tư vấn, phân loại các hệ tư vấn theo phương pháp xây dựng). Giới thiệu hệ tư vấn website được xây dựng trong khóa luận.
Chương 2. Khai phá query log và ứng dụng: Giới thiệu về cấu trúc query log của máy tìm kiếm, các thông tin có thể khai phá, phương pháp khai phá và các ứng dụng của việc khai phá query log.
Chương 3. Hệ thống tư vấn website cho máy tìm kiếm dựa trên khai phá query log: Trình bày mô hình hệ thống tư vấn website do chúng tôi đưa ra và các công trình liên quan.
Chương 4. Thực nghiệm và đánh giá: Xây dựng, thử nghiệm và đánh giá hệ thống với các query liên quan tới miền sản phẩm điện tử.
( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới)
No comments:
Post a Comment