Tuesday, January 26, 2016

Khai phá dữ liệu WEB Đại học công nghệ

KHAI PHÁ DỮ LIỆU WEB

Khai phá dữ liệu web

           Trong cuốn sách nổi tiếng "Data Mining - Concepts and Techniques", hai tác giả Jiawei Han và Micheline Kamber nhận định rằng, tình trạng "giàu về dữ liệu mà nghèo về thông tin" là một động lực phát triển lĩnh vực khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu (CSDL). Hoạt động nghiên cứu và triển khai xây dựng các hệ thống tự động nhận ra các mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong khối dữ liệu đồ sộ, nhằm bổ sung tài nguyên tri thức cho con người là hết sức cần thiết và có ý nghĩa trong quá trình hình thành và phát triển kinh tế tri thức. 
               Ngày nay, World Wide Web đã trở thành một kho tài nguyên dữ liệu khổng lồ về mọi lĩnh vực; kho tài nguyên dữ liệu này đang không ngừng tăng trưởng với tốc độ cao. Kho tài nguyên dữ liệu Web tiềm ẩn nhiều mẫu thông tin quý giá đối với hoạt động của cộng đồng nói chung và từng cá thể nói riêng. 
               Các hệ thống khai phá dữ liệu Web đã trở thành các công cụ làm cho tài nguyên Web "kho trời chung vô tận của riêng mình" (Cao Bá Quát) thực sự phát huy hiệu quả tới cộng đồng và tới mỗi cá thể trong cộng đồng. Phù hợp với sự phát triển của Web, hoạt động nghiên cứu và triển khai về khai phá dữ liệu Web không ngừng được tăng trưởng. Hiệp hội các nhà khoa học về Phát hiện tri thức và Khai phá dữ liệu (The Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining, viết tắt là SIGKDD) đã tập hợp được nhiều nhà khoa học, trong đó có nhiều nhà khoa học máy tính nổi tiếng thế giới. Từ năm 1995 tới nay, hoạt động điển hình nhất của SIGKDD là tổ chức Hội nghị Khoa học quốc tế thường niên ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 
             Khai phá dữ liệu Web đã trở thành một trong những nội dung nhận được nhiều quan tâm nhất tại ACM SIGKDD Conference on Knowledge Discovery and Data Mining và các hội nghị khoa học quốc tế lớn khác. Từ năm 2006, "Khai phá dữ liệu Web" đã là một môn học trong Chương trình đào tạo ngành Công nghệ thông tin (CNTT) và ngành Hệ thống thông tin (HTTT) tại Khoa Công nghệ Thông tin, Trường Đại học Công nghệ (ĐHCN), Đại học Quốc gia HàNội (ĐHQGHN). 
            Giáo trình Khai phá dữ liệu Web này được tập hợp và hoàn thiện từ nội dung các bài giảng trong thời gian vừa qua, nhằm cung cấp một tài liệu hoàn chỉnh phục vụ hoạt động giảng dạy và học tập môn học này tại Khoa CNTT, Trường 6 ĐHCN cả ở bậc đại học và sau đại học. Các nội dung trong giáo trình không chỉ đáp ứng yêu cầu đào tạo về lĩnh vực khoa học và công nghệ liên quan, mà còn cung cấp một số kiến thức và kỹ năng mở rộng và chuyên sâu phục vụ nhu cầu nghiên cứu và phát triển lĩnh vực khai phá dữ liệu Web không chỉ tại Trường ĐHCN mà còn ở các cơ sở đào tạo và nghiên cứu khác trong nước. Giáo trình gồm 10 chương, nội dung sơ bộ như sau: 

Chương 1 - Một số nội dung cơ bản về khai phá dữ liệu cung cấp các kiến thức cơ bản nhất về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong các CSDL, nhằm giúp độc giả nắm bắt được bản chất của các khái niệm cơ bản trong khai phá dữ liệu, phân biệt các khái niệm này với một số khái niệm liên quan và một số bài toán cơ bản nhất và xu hướng phát triển của khai phá dữ liệu, phát hiện tri thức trong các CSDL. 

Chương 2 - Tổng quan về khai phá Web cung cấp các kiến thức cơ bản nhất về khai phá Text và khai phá Web, nhằm giúp độc giả nắm bắt được các nội dung cơ bản của khai phá Text và khai phá Web. Chương này cũng trình bày cơ bản về khai phá cấu trúc Web và khai phá sử dụng Web. 

Chương 3 - Một số kiến thức toán học cho khai phá dữ liệu Web nhằm mục tiêu cung cấp một số kiến thức nền tảng về toán học cho khai phá dữ liệu Web. Lý thuyết đồ thị và lý thuyết xác suất thâm nhập sâu rộng vào khai phá dữ liệu Web theo các góc độ mô hình, giải pháp và kỹ thuật có nguồn gốc từ bản chất tự nhiên và xã hội của Web. 

Chương 4. Một số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phá văn bản cung cấp một số kiến thức nền tảng về xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng, cho phép nâng cao hiệu quả của các giải pháp khai phá Web tiếng Việt. 

Chương 5 - Các phương pháp biểu diễn văn bản trình bày bài toán các khuôn dạng biểu diễn dữ liệu cho các thuật toán khai phá dữ liệu. 

Chương 6 - Hệ thống tìm kiếm, 

Chương 7 - Phân cụm văn bản, 

Chương 8- Phân lớp Web, 

Chương 9 - Trích chọn thông tin trên Web trình bày về bốn bài toán chủ yếu của khai phá dữ liệu Web. Các khái niệm liên quan, các mô hình biểu diễn, các thuật toán, các kỹ thuật và các phương pháp đánh giá hiệu quả được giới thiệu và phân tích. 

Chương 10 - Web ngữ nghĩa trình bày về Web ngữ nghĩa, thế hệ mới của Web gồm khái niệm, kiến trúc, các ngôn ngữ và quá trình tiệm cận tới Web ngữ nghĩa. Trong quá trình biên soạn giáo trình này, chúng tôi được khai thác nguồn tài nguyên phong phú, bao gồm nhiều bài báo khoa học, các tiện ích và sản phẩm phần mềm thuộc lĩnh vực khai phá Web. 


KHAI PHÁ DỮ LIỆU WEB : Tải về
( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới) 

No comments:

Post a Comment

Pages - Menu