Wednesday, January 27, 2016

Nghiên cứu cái tiến tập luật trong hệ thống giám sát an ninh mạng

NGHIÊN CỨU CẢI TIẾN TẬP LUẬT TRONG  HỆ THỐNG GIÁM SÁT AN NINH MẠNG
Mô hình hệ thống GSANM độc lập

Với sự phát triển mạnh mẽ của Internet và World Wide Web đã đặt ra nhiệm vụ đảm bảo an toàn thông tin cho các hệ thống mạng của các cơ quan, tổ chức nhằm tránh khỏi những hiểm họa mất an toàn thông tin trước những tấn công mạng có thể xảy ra. Để có thể làm việc này các cơ quan, tổ chức phải có một hệ thống giám sát an ninh mạng đủ mạnh nhằm kiểm soát, thu thập toàn bộ lưu lượng dữ liệu vào ra cho cả một hệ thống mạng và đưa ra những cảnh báo chính xác tới người quản trị hệ thống khi có tấn công xảy ra.

Việc giám sát an ninh mạng hiện nay đã được các quốc gia trên thế giới vô cùng quan tâm và nó có vai trò sống còn cho an ninh quốc gia. Trong đó, Mỹ là quốc gia đi tiên phong cho lĩnh vực giám sát an ninh mạng trên toàn cầu. Ngoài ra, các quốc gia láng giềng bên cạnh nước ta như Hàn Quốc, Trung Quốc cũng xem đây là một nhiệm vụ tối mật cho quốc phòng an ninh. Tại Việt Nam, trong những năm gần đây giám sát an ninh mạng cũng được xem là một nhiệm vụ trọng yếu được các cơ quan cấp bộ, ban, ngành vô cùng quan tâm và thực hiện công việc này một cách tích cực.
Tuy nhiên, để có thể thực hiện tốt được nhiệm vụ này đòi hỏi phải có một chính sách giám sát an ninh mạng cả chiều rộng lẫn chiều sâu cộng với các thiết bị giám sát an ninh mạng hiện đại. Một hệ thống giám sát an ninh mạng tốt cần phải thu thập được tất cả các nhật ký vào ra của hệ thống, sau đó thực hiện phân tích những dữ liệu này, và dựa trên những dấu hiệu hoặc tập luật sẵn có để đưa ra cảnh bảo tới người quản trị hệ thống.
Trên thực tế hệ thống giám sát an ninh mạng (GSANM) vẫn còn một số vấn đề cần bổ sung như: không phải tất cả các nhật ký hệ thống gửi về đều được chuẩn hóa, do vậy cần phải chọn lọc các trường cần thiết để hiển thị thông tin có giá trị tới người quản trị hệ thống. Bên cạnh đó hệ thống giám sát an ninh mạng vẫn phụ thuộc nhiều vào các báo cáo từ các thiết bị an ninh, có nghĩa là đối với các nhật ký hệ thống không phải là các cảnh báo thì hệ thống vẫn chưa phân tích được do vậy cần tận dụng nguồn nhật ký hệ thống này để bổ sung một số luật cơ bản cho hệ thống giám sát an ninh mạng. Với thực trạng nêu trên, luận văn này hướng đến mục tiêu nghiên cứu cải tiến tập luật và cách thức tạo các luật cơ bản từ các nguồn nhật ký hệ thống có sẵn cho hệ thống giám sát an ninh mạng.

Trong luận văn này tôi nghiên cứu về hệ thống giám sát an ninh mạng hiện tại đang được triển khai, nghiên cứu các kỹ thuật tấn công phổ biến vào ứng dụng Web, nhằm đưa ra các dấu hiệu tấn công để thiết kế tập luật phù hợp với từng hệ thống mạng, nghiên cứu cách thức trích xuất các trường thông tin quan trọng từ dữ liệu nhật ký và xây dựng bổ sung cũng như chỉnh sửa các tập luật cho hệ thống GSANM. Cuối cùng tôi tiến hành thực nghiệm triển khai hệ thống giám sát an ninh mạng tại đơn vị Trung tâm Công nghệ thông tin và Giám sát an ninh mạng (TTCNTT&GSANM) tại Ban Cơ yếu Chính phủ để đánh giá hiệu quả của các tập luật đã được thiết kế.
NGHIÊN CỨU CẢI TIẾN TẬP LUẬT TRONG  HỆ THỐNG GIÁM SÁT AN NINH MẠNG: Tải về
Slide: Tải về
Tóm tăt : Tải về

Tư vấn website bằng máy tìm kiếm

MÁY TÌM KIẾM DỰA TRÊN KHAI PHÁ QUERY LOG
Máy tìm kiếm


Trong thời đại bùng nổ thông tin, các lĩnh vực trong cuộc sống rất phong phú, số lượng chủng loại sản phẩm rất lớn. Để có hệ tư vấn dựa trên chuyên gia hay những bộ tiêu chuẩn cụ thể như vậy trên mọi lĩnh vực, mọi sản phầm là điều không thể.

Khi cần tìm thông tin về một sản phẩm nào đó, giải pháp được hầu hết người dùng sử dụng là đưa câu hỏi vào máy tìm kiếm thay vì tìm đến những website/forum chuyên ngành. Tuy nhiên, máy tìm kiếm không phải lúc nào cũng hiệu quả.
Ví dụ, một du khách lần đầu đến Hà Nội, muốn tìm khách sạn bằng query: “hanoi hotel”, sẽ nhận được từ Google gần hai triệu kết quả trả về. Hầu hết mọi khách sạn trong danh sách kết quả đều xa lạ và tự quảng cáo mình là tốt nhất, làm cho du khách bối rối trong biển thông tin. Không thể có thời gian để tìm hiểu lại về từng khách sạn (dù chỉ là trong 10-20 kết quả đầu); người khách cần lời khuyên cho trường hợp này.
 Những nhu cầu như vậy có thể bắt gặp rất nhiều trong cuộc sống hàng ngày, ngay cả khi người ta tìm kiếm những sản phầm đơn giản như một chiếc đầu DVD, một hãng sơn, một công ty taxi …, mà vì không có thông tin nên với họ mọi thương hiệu đều như nhau. Cần có một phương pháp có thể đưa ra gợi ý, tư vấn cho người dùng đủ tốt để áp dụng cho những chủ đề rất đa dạng của cuộc sống. Một giải pháp rất tốt và hiệu quả là gợi ý dựa trên chính kinh nghiệm của những người đã từng tìm về chủ đề này trước đó. Những thông tin được lưu lại trong log của máy tìm kiếm sẽ cho biết những người tìm về chủ đề đó thường hay truy cập vào website nào.
Những website này đã qua hai lần lọc một của máy tìm kiếm và một của người dùng (không phải ngẫu nhiên mà nhiều người dùng lại có cùng một lựa chọn). Đôi khi những kết quả này còn tốt hơn cả kết quả máy tìm kiếm trả lại. Ví dụ: những website tin tức lớn,được nhiều người tìm & truy cập nhất của Vietnam như: VnExpress, Vietnamnet, Dân Trí… đều không xuất hiện trong top 10 khi tìm “vietnam news” trên cả Yahoo & Live Search (phiên bản mới của MSN).
Bài toán khai phá query logs là bài toán phải xử lý khối lượng dữ liệu rất lớn (lên tới hàng gigabyte) nên việc chọn được một thuật toán tốt và hiệu quả về thời gian là rất khó khăn. tập trung vào việc thống kê website và khai phá mẫu có thứ tự (tìm ra quy luật giữa từ khóa trong query và url được click) để đưa ra tư vấn.

Chương 1. Tổng quan về hệ tư vấn: Trình bày những nội dung cơ bản về hệ tư vấn (các hệ thống nổi tiếng, mô tả bài toán tư vấn, phân loại các hệ tư vấn theo phương pháp xây dựng). Giới thiệu hệ tư vấn website được xây dựng trong khóa luận.

Chương 2. Khai phá query log và ứng dụng: Giới thiệu về cấu trúc query log của máy tìm kiếm, các thông tin có thể khai phá, phương pháp khai phá và các ứng dụng của việc khai phá query log.

Chương 3. Hệ thống tư vấn website cho máy tìm kiếm dựa trên khai phá query log: Trình bày mô hình hệ thống tư vấn website do chúng tôi đưa ra và các công trình liên quan.

Chương 4. Thực nghiệm và đánh giá: Xây dựng, thử nghiệm và đánh giá hệ thống với các query liên quan tới miền sản phẩm điện tử.


   HỆ THỐNG TƯ VẤN WEBSITE CHO MÁY TÌM KIẾM DỰA TRÊN KHAI PHÁ QUERY LOG     
Tải về

( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới) 

Phân tích chủ đề tính hạng quảng cáo trực tuyến

PHÂN TÍCH CHỦ ĐỀ ẨN


LDA chủ đề ẩn

Quảng cáo trực tuyến đang ngày càng phát triển và đem lại những khoản lợi nhuận khổng lồ trong các năm gần đây, lên đến 47.5 tỉ đô la .Quảng cáo trên máy tìm kiếm là hình thức quảng cáo trực tuyến phổ biến nhất, trong đó các quảng cáo được hiển thị bên cạnh kết quả tìm kiếm trả về cho người dùng.
Trong 5 năm gần đây, nhằm tìm kiếm và đưa ra một thứ tự quảng cáo phù hợp nhất, rất nhiều công trình trong nước cũng như trên thế giới đã được công bố Một hướng tiếp cận mới trong quảng cáo theo ngữ cảnh bằng việc mở rộng tập từ khóa quảng cáo sử dụng kỹ thuật phân tích chủ đề ẩn.
Khóa luận này tiếp tục xem xét bài toán xếp hạng quảng cáo trên máy tìm kiếm và đề xuất mô hình xếp hạng quảng cáo sử dụng kỹ thuật phân tích chủ đề ẩn theo hướng tiếp cận mới. Khác với cách tiếp cận ở mô hình của khóa luận này biểu diễn quảng cáo theo những đặc trưng về chủ đề ẩn và khai thác sự giúp đỡ của query logs trong việc xây dựng tập dữ liệu học và đã thu được những kết quả khả quan.
Khóa luận gồm bốn chương  được mô tả sơ bộ dưới đây:

        Chương 1. Khái quát về quảng cáo trực tuyến 

Trình bày về tình hình quảng cáo trực tuyến trên thế giới cũng như ở Việt Nam, đồng thời giới thiệu về hình thức quảng cáo trên máy tìm kiếm và bài toán xếp hạng quảng cáo trên máy tìm kiếm.

          Chương 2. Các phương pháp quảng cáo thông qua tìm kiếm

Trình bày những công trình đã được đưa ra trong những năm gần đây nhằm giải quyết bài toán xếp hạng quảng cáo, chỉ ra ưu, nhược điểm của mỗi phương pháp.

Chương 3. Hệ thống quảng cáo trực tuyến sử dụng kĩ thuật xếp hạng và phân tích chủ đề ẩn. 

Chương này trình bày về kĩ thuật xếp hạng, phương pháp học xếp hạng SVM Rank, kĩ thuật phân tích chủ đề ẩn và đề xuất mô hình xếp hạng quảng cáo sử dụng chủ đề ẩn.

Chương 4. Thực nghiệm và đánh giá mô hình 

Trình bày về dữ liệu được sử dụng, các giai đoạn xử lý dữ liệu và thực nghiệm, đưa ra kết quả của mô hình, nhận xét và phân tích kết quả thu được.

QUẢNG CÁO TRỰC TUYẾN HƯỚNG CÂU TRUY VẤN VỚI SỰ GIÚP ĐỠ CỦA PHÂN TÍCH CHỦ ĐỀ VÀ KỸ THUẬT TÍNH HẠNG : Tải về

( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới)

Xây dựng mô hình KEYWORD-TOPIC cho quảng cáo

MÔ HÌNH KEYWORD-TOPIC CHO QUẢNG CÁO


Keyword- topic
Mô hình Keyword-Topic

Mục tiêu của đề tài luận văn là nghiên cứu kỹ thuật hỗ trợ quảng cáo theo ngữ cảnh – một dạng quảng cáo trực tuyến trên Web. 
Thông thường, quảng cáo trên Web đượcc chia thành hai loại chính, đó là Quảng cáo tìm kiếm được tài trợ (SponsoredSearch) và Quảng cáo dựa trên ngữ cảnh (Contextual advertising). 
Hình thức quảng cáo tìm kiếm được tài trợ hiển thị quảng cáo trên các trang kết quả được trả về bởi công cụ tìm kiếm chẳng hạn như Google hay Yahoo.
Trong trường hợp này, các công cụ tìm kiếm đóng vai trò nhƣ một đại lý phân phối quảng cáo. Ngược lại, quảng cáo dựa trên ngữ cảnh hay còn đƣợc gọi là Quảng cáo dựa trên nội dung đặt một lƣợng nhỏ các quảng cáo lên các trang Web có nội dung mà ngƣời dùng đang xem. Lợi ích của việc Quảng cáo dựa trên ngữ cảnh là hỗ trợ nhiều nhà xuất bản nội dung khác nhau như một trang Web hay một blog so với hình thức Quảng cáo tìm kiếm đƣợc tài trợ.
Một hệ thống Quảng cáo ngữ cảnh điển hình bao gồm bốn bên tham gia, đó là nhà xuất bản, nhà quảng cáo, hệ thống phân phối và ngƣời sử dụng. Nhà xuất bản là chủ sở hữu các trang Web mà quảng cáo hiển thị. Các nhà quảng cáo cung cấp các nội dung quảng cáo để quảng bá sản phẩm và dịch vụ của họ. Các mạng quảng cáo hoạt động nhƣ một chiếc cầu nối giữa nhà quảng cáo và nhà xuất bản, nó lựa chọn các quảng cáo tốt nhất để đặt vào trong nội dung của một trang Web.
Người sử dụng là người xem nội dung trên các trang Web. Quảng cáo được lựa chọn trên trang đích có nội dung ít nhiều liên quan đến nội dung của trang Web. Khi một ngƣời sử dụng mở một trang Web, họ có thể trông thấy các quảng cáo thông qua một đoạn văn bản mô tả và một đƣờng liên kết. Khi ngƣời dùng nhấp chuột vào đƣờng liên kết này, nó sẽ đƣa ngƣời dùng đến với trang đích quảng cáo. Mô hình định giá đƣợc sử dụng rộng rãi ngày nay đó là mô hình PPC (Pay- per-click).
Nhà tạo quảng cáo trả một số tiền nhất định cho mỗi lần nhấp chuột vào liên kết quảng cáo, ngoài ra nhà tạo quảng cáo cũng có thể lựa chọn các hình thức khác nhƣ PPI (Pay-per-Impression) hay PPA (Pay-peraction). Đƣợc trình bày bởi các nghiên cứu trƣớc đây [6] về hành vi ngƣời dùng, để tăng trải nghiệm ngừoi dùng cũng nhƣ tăng khả năng nhấp chuột vào một quảng cáo cần lựa chọn hiển thị những quảng cáo có nội dung phù hợp với trang Web mà ngƣời dùng đang xem. Bằng việc sử dụng các phương pháp truyền thống, điều này có thể thực hiện 4 bằng việc tính toán độ liên quan giữa quảng cáo và nội dung trang Web. Do các quảng cáo thƣờng sử dụng ngôn ngữ đặc biệt để gây ấn tượng cho người đọc, việc so sánh nội dung các từ trong quảng cáo với các từ trong trang Web thường không thể hiện chính xác sự liên quan về nội dung.
Trong nhiều trƣờng hợp, biểu diễn của một quảng cáo có thể không chứa bất kì từ nào trong nội dung của một trang Web mặc dù hai văn bản này có liên quan đến nhau.

Vấn đề này đã từng được biết đến nhừ là “rào cản về từ vựng” trong nghiên cứu của Ribeiro-Neto et al. Một khó khăn khác đó là sự hiện diện của từ đa nghĩa và đồng nghĩa làm giảm độ chính xác của quá trình so khớp. Với thực tế và những vấn đề được trình bày ở trên, luận văn tiến hành nghiên cứu và đề xuất mô hình tính toán và so khớp giữa nội dung quảng cáo và trang hiển thị thông qua đề tài “Mô hình Keyword-Topic cho quảng cáo dựa trên ngữ cảnh” để cải thiện chất lượng của bài toán so khớp quảng cáo với nội dung trang đối với ngôn

MÔ HÌNH KEYWORD-TOPIC CHO QUẢNG CÁO: Tải về
( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới) 

Tuesday, January 26, 2016

Công cụ RANDOM FOREST WEKA

CÔNG CỤ RANDOM FOREST

random Forest weka

 Giới thiệu thuật toán Random Forest

Thuật toán RF - RandomForest là một thuật toán đặc biệt dựa trên kỹ thuật lắp ghép, Về bản chất thuật toán RF được xây dựng dựa trên nền tảng thuật toán phân lớp cây phân loại và hồi quy, sử dụng kỹ thuật có tên gọi là “bagging” Thuật toán này cho phép lựa chọn một nhóm nhỏ các thuộc tính tại mỗi nút của cây để phân chia cho mức tiếp theo của cây phân lớp. Bằng cách chia nhỏ không gian tìm kiếm thành các cây nhỏ hơn như vậy cho phép thuật toán có thể phân loại một cách rất nhanh chóng cho dù không gian thuộc tính rất lớn. Các tham số đầu vào của thuật toán khá đơn giản bao gồm các thuộc tính được chọn trong mỗi lần phân chia. Giá trị mặc định của tham số này là căn bậc hai của p với p là số lượng các thuộc tính. Số lượng cây được tạo ra là không hạn chế và cũng không sử dụng bất kỳ kỹ thuật nào để hạn chế mở rộng cây. Phải lựa chọn tham số cho biết số lượng cây sẽ được sinh ra sao cho đảm bảo rằng sẽ mỗi một thuộc tính sẽ được kiểm tra một vài lần. Thuật toán sử dụng kỹ thuật “out of bag” để xây dựng tập huấn luyện và phương pháp kiểm tra trên nó

Lịch sử của thuật toán Random Forest

Thuật toán tạo một rừng ngẫu nhiên được phát triển bởi Leo Breiman và Adele Cutler , thuật ngữ Random Forest được lấy làm tên phổ biến cho thuật toán này. Thuật ngữ RF được xuất lần đầu tiên năm 1995, sau đó kết hợp với phương pháp “bagging” trong lựa chọn các thuộc tính ngẫu nhiên của Leo Breiman năm 1996 để xây dựng phương pháp chọn các cây quyết theo các thay đổi có thể kiểm soát được. Năm 2001 Breiman xây dựng thuật toán RF có bổ sung thêm một lớp ngẫu nhiên để phân lớp. Ngoài việc xây dựng mỗi cây sử dụng các mẫu dữ liệu khác nhau, các rừng ngẫu nhiên được thay đổi để xây dựng các cây phân loại và hồi quy khác nhau. Các gói thư viện cài đặt thuẩt toán RF được xây dựng bằng ngôn ngữ Fortran bởi Leo Breiman và Cutler

Thuật toán Random Forest

Random Forest (rừng ngẫu nhiên). Là một phương pháp phân lớp và hồi quy dựa trên việc kết hợp kết quả dự đoán của một số lượng lớn các cây quyết định.  chúng ta có thể liên tưởng tới việc bầu cử theo nguyên tắc phổ thông đầu phiếu. Nếu sử dụng một cây quyết định chẳng khác nào việc bầu cử mà chỉ có 1 người bỏ phiếu. Việc sinh các cây quyết định từ một mẫu dữ liệu nhằm đa dạng hoá các “phiếu bầu” (giống như việc mọi thành phần, tầng lớp, giai cấp đều được đi bỏ phiếu) cho kết luận. Việc áp dụng các kỹ thuật sinh ra các mẫu dữ liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị tật” trong rừng (giống việc cho phép công dân không cần phân biệt trình độ học vấn, sức khỏe... đi bầu cử). Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp cho chúng ta cái nhìn đa chiều, chi tiết hơn và do đó kết luận sẽ có tính chính xác, gần với thực tế hơn. Trong thực tế RF đã trở thành một công cụ tin cậy cho phân tích dữ liệu đặc biệt là dữ liệu tin sinh học. 
THUẬT TOÁN RANDOM FOREST ÁP DỤNG WEKA:  Tải về
( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới)  

Khai phá dữ liệu WEB Đại học công nghệ

KHAI PHÁ DỮ LIỆU WEB

Khai phá dữ liệu web

           Trong cuốn sách nổi tiếng "Data Mining - Concepts and Techniques", hai tác giả Jiawei Han và Micheline Kamber nhận định rằng, tình trạng "giàu về dữ liệu mà nghèo về thông tin" là một động lực phát triển lĩnh vực khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu (CSDL). Hoạt động nghiên cứu và triển khai xây dựng các hệ thống tự động nhận ra các mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong khối dữ liệu đồ sộ, nhằm bổ sung tài nguyên tri thức cho con người là hết sức cần thiết và có ý nghĩa trong quá trình hình thành và phát triển kinh tế tri thức. 
               Ngày nay, World Wide Web đã trở thành một kho tài nguyên dữ liệu khổng lồ về mọi lĩnh vực; kho tài nguyên dữ liệu này đang không ngừng tăng trưởng với tốc độ cao. Kho tài nguyên dữ liệu Web tiềm ẩn nhiều mẫu thông tin quý giá đối với hoạt động của cộng đồng nói chung và từng cá thể nói riêng. 
               Các hệ thống khai phá dữ liệu Web đã trở thành các công cụ làm cho tài nguyên Web "kho trời chung vô tận của riêng mình" (Cao Bá Quát) thực sự phát huy hiệu quả tới cộng đồng và tới mỗi cá thể trong cộng đồng. Phù hợp với sự phát triển của Web, hoạt động nghiên cứu và triển khai về khai phá dữ liệu Web không ngừng được tăng trưởng. Hiệp hội các nhà khoa học về Phát hiện tri thức và Khai phá dữ liệu (The Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining, viết tắt là SIGKDD) đã tập hợp được nhiều nhà khoa học, trong đó có nhiều nhà khoa học máy tính nổi tiếng thế giới. Từ năm 1995 tới nay, hoạt động điển hình nhất của SIGKDD là tổ chức Hội nghị Khoa học quốc tế thường niên ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 
             Khai phá dữ liệu Web đã trở thành một trong những nội dung nhận được nhiều quan tâm nhất tại ACM SIGKDD Conference on Knowledge Discovery and Data Mining và các hội nghị khoa học quốc tế lớn khác. Từ năm 2006, "Khai phá dữ liệu Web" đã là một môn học trong Chương trình đào tạo ngành Công nghệ thông tin (CNTT) và ngành Hệ thống thông tin (HTTT) tại Khoa Công nghệ Thông tin, Trường Đại học Công nghệ (ĐHCN), Đại học Quốc gia HàNội (ĐHQGHN). 
            Giáo trình Khai phá dữ liệu Web này được tập hợp và hoàn thiện từ nội dung các bài giảng trong thời gian vừa qua, nhằm cung cấp một tài liệu hoàn chỉnh phục vụ hoạt động giảng dạy và học tập môn học này tại Khoa CNTT, Trường 6 ĐHCN cả ở bậc đại học và sau đại học. Các nội dung trong giáo trình không chỉ đáp ứng yêu cầu đào tạo về lĩnh vực khoa học và công nghệ liên quan, mà còn cung cấp một số kiến thức và kỹ năng mở rộng và chuyên sâu phục vụ nhu cầu nghiên cứu và phát triển lĩnh vực khai phá dữ liệu Web không chỉ tại Trường ĐHCN mà còn ở các cơ sở đào tạo và nghiên cứu khác trong nước. Giáo trình gồm 10 chương, nội dung sơ bộ như sau: 

Chương 1 - Một số nội dung cơ bản về khai phá dữ liệu cung cấp các kiến thức cơ bản nhất về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong các CSDL, nhằm giúp độc giả nắm bắt được bản chất của các khái niệm cơ bản trong khai phá dữ liệu, phân biệt các khái niệm này với một số khái niệm liên quan và một số bài toán cơ bản nhất và xu hướng phát triển của khai phá dữ liệu, phát hiện tri thức trong các CSDL. 

Chương 2 - Tổng quan về khai phá Web cung cấp các kiến thức cơ bản nhất về khai phá Text và khai phá Web, nhằm giúp độc giả nắm bắt được các nội dung cơ bản của khai phá Text và khai phá Web. Chương này cũng trình bày cơ bản về khai phá cấu trúc Web và khai phá sử dụng Web. 

Chương 3 - Một số kiến thức toán học cho khai phá dữ liệu Web nhằm mục tiêu cung cấp một số kiến thức nền tảng về toán học cho khai phá dữ liệu Web. Lý thuyết đồ thị và lý thuyết xác suất thâm nhập sâu rộng vào khai phá dữ liệu Web theo các góc độ mô hình, giải pháp và kỹ thuật có nguồn gốc từ bản chất tự nhiên và xã hội của Web. 

Chương 4. Một số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phá văn bản cung cấp một số kiến thức nền tảng về xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt nói riêng, cho phép nâng cao hiệu quả của các giải pháp khai phá Web tiếng Việt. 

Chương 5 - Các phương pháp biểu diễn văn bản trình bày bài toán các khuôn dạng biểu diễn dữ liệu cho các thuật toán khai phá dữ liệu. 

Chương 6 - Hệ thống tìm kiếm, 

Chương 7 - Phân cụm văn bản, 

Chương 8- Phân lớp Web, 

Chương 9 - Trích chọn thông tin trên Web trình bày về bốn bài toán chủ yếu của khai phá dữ liệu Web. Các khái niệm liên quan, các mô hình biểu diễn, các thuật toán, các kỹ thuật và các phương pháp đánh giá hiệu quả được giới thiệu và phân tích. 

Chương 10 - Web ngữ nghĩa trình bày về Web ngữ nghĩa, thế hệ mới của Web gồm khái niệm, kiến trúc, các ngôn ngữ và quá trình tiệm cận tới Web ngữ nghĩa. Trong quá trình biên soạn giáo trình này, chúng tôi được khai thác nguồn tài nguyên phong phú, bao gồm nhiều bài báo khoa học, các tiện ích và sản phẩm phần mềm thuộc lĩnh vực khai phá Web. 


KHAI PHÁ DỮ LIỆU WEB : Tải về
( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới) 

Lập trình song song OPENMP

PHÁT TRIỂN ỨNG DỤNG SONG SONG VỚI OPENMP                


lập trình Open MP

    GIỚI THIỆU   
           Ngày nay sự phát triển của công nghệ được thách thức bởi lớp bài toán lớn cần giải quyết trong nhiều lĩnh vực của đời sống xã hội như dự báo thời tiết, khai phá dữ liệu, xử lý ảnh, mô phỏng tai nạn xe hơi, tự động hóa... Lớp bài toán này vừa đòi hỏi đáp ứng thời gian thực vừa yêu cầu xử lý trên khối dữ liệu lớn. Để giải quyết bài toán này đòi hỏi các bộ xử lý có hiệu năng cao.
           Xử lý song song ra đời với mục đích làm tăng khả năng tính toán của máy tính bằng cách kết hợp nhiều bộ xử lý tham gia đồng thời vào quá trình xử lý thay với việc sử dụng các máy tính chuyên biệt đắt tiền.
        Với sự phát triển cua kiến trúc máy tính và mạng máy tính cho thấy rằng trong tương lai cho thấy xử lý song song không những được thực hiện trên những siêu máy tính mà có thể được thực hiện trên các trạm làm việc, máy tính cá nhân, mạng máy tính. Nhưng hầu hết các thuật toán ngày nay đều là những thuật toán tuần tự. Cho nên cần xây dựng những thuật toán, cấu trúc dữ liệu cho phép xử lý một cách song song. Xử lý song song giúp giải quyết hiệu quả rất nhiều bài toán lớn đặc biệt là bài toán mô phỏng N-body. 
         Đó là một bài toán mô phỏng chuyển động của các body trong hệ mô phỏng N-body do lực tương tác giữa giữa các body.Việc song song hóa bài toán trên là rất hợp lý vì một hệ N-body có rất nhiều các body nên việc tính lực tương tác giữa các body tốn rất nhiều thời gian. Trong khuôn khổ của khóa luận. Áp dụng xử lý song song vào việc giảm thời gian tính lực tương tác giữa các body trong hệ mô phỏng N-body. Luận văn gồm ba chương.

Chương 1: Là chương giới thiệu tổng quan về lập tính toán song song

          Chương này đề cập đến các vấn đề như các kiến trúc của máy tính song song, các mô hình lập trình song song, và các vấn đề liên quan đến hiệu năng của lập trình song song như định luật amdahl’s, bế tắc và cân bằng tải.

Chương 2: Là chương giới thiệu về OpenMP. 

          Chương này tập trung nghiên cứu chi tiết các thành phần củac OpenMP. Bao gồm các chỉ thị biên dịch, các hàm thư viện và các biến môi trường.

Chương 3: Là chương mô tả và cài đặt bài toán N-body. 

           Chương này mô tả sơ qua bài toán N-body. Thuật toán tính lực tương tác lên các body trong hệ, và ba cách song song hóa giai đoạn tính lực tương tác giữa các body.


PHÁT TRIỂN ỨNG DỤNG SONG SONG VỚI OPENMP:    Tải về

( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới)


Tính toán hiệu năng cao bằng GPU

TÍNH TOÁN HIỆU NĂNG CAO VỚI BỘ XỬ LÝ ĐỒ HỌA GPU VÀ ỨNG DỤNGGIỚI THIỆU

Thuật toán n-body



            Các bộ xử lý đồ họa (GPU - Graphic Proccessing Unit) đã trở thành một phần không thể tách rời của hệ thống máy tính ngày nay. Trong sáu năm vừa qua đã đánh dấu sự gia tăng ấn tượng trong hiệu suất và khả năng của GPU. GPU hiện đại khôngchỉ là một công cụ xử lý đồ họa mạnh mà còn là một bộ xử lý hỗ trợ lập trình song song ở mức cao, giúp xử lý các bài toán số học lập trình tính năng xử lý số học phứctạp và băng thông bộ nhớ tăng hơn đáng kể so với CPU cùng loại. Sự tăng tốc nhanh chóng của GPU trong cả khả năng hỗ trợ lập trình và năng lực tính toán của nó đã tạo ra một xu hướng nghiên cứu mới. Một cộng đồng đã nghiên cứu và đã ánh xạ thành công một lượng lớn các vấn đề phức tạp đòi hỏi tính toán lớn vào GPU. Điều này trong nỗ lực chung nhằm mục đích ứng dụng GPU vào giải quyết các bài toán hiệu năng cao của tính toán hiện đại. 
          Tính toán mục đích thông dụng trên GPU (GPGPU) là một thay thế hấp dẫn cho CPU tại trong hệ thống máy tính hiện đại. Trong một tương lai không xa, chúng ta có thể sẽ thấy GPU sẽ đảm nhận thay cho CPU những công việc như xử lý hình ảnh và đồ họa, các tính toán phức tạp thay vì chỉ dừng lại ở những ứng dụng trò chơi 3D.

            Với những ý nghĩa thực tiến đó, luận văn đi vào nghiên cứu tính toán thông dụng trên GPU và thử nghiệm trực tiếp trên bài toán tính toán hiệu năng cao tiêu biểu là n-body. Luận văn gồm 3 chương chính:

Chương 1: Tổng quan về tính toán song song và GPU

         Chương này giới thiệu những kiến thức tổng quan về tính toán song song, từ đó tìm hiểu những kiến thức cơ bản về bộ xử lý đồ họa GPU và cách thức ứng dụng tính toán trên đó.
Thuật toán song song GPU

Chương 2: Hệ thống chương trình dịch và ngôn ngữ lập trình GPU

        Chương này cung cấp các kiến thức về môi trường lập trình, ngôn ngữ lập trình, cách thiết lập chương trình và các chỉ dẫn hiệu năng khi cài đặt ứng dụng tính toán trên GPU.

Chương 3: Ứng dụng GPU vào bài toán n-body và thử nghiệm chương trình.


         Trên cơ cở các kiến thức được trình bày ở các chương trên, tác giả luận văn đã tiếnhành cài đặt và thử nghiệm mô phỏng n-body trên CPU và GPU. Từ đó có những so sánh, nhận xét về năng lực tính toán vượt trội của GPU so với CPU truyền thống. Đồng thời cũng mở ra các hướng cải tiến hiệu năng mới cho bài toán n-body chạy trên GPU. 

TÍNH TOÁN HIỆU NĂNG CAO VỚI BỘ XỬ LÝ ĐỒ HỌA GPU VÀ ỨNG DỤNG: Tải về

( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới)


Saturday, January 23, 2016

Chia sẻ template blogspot đẹp đầy cá tính 2016

Flatness Responsive Blogger Template là một mẫu như vậy! Cảm nhận ban đầu thật đẹp và đầy ấn tượng, thật tuyệt vời để làm trang cá nhân về thiết kế.

Chờ đợi sao được nữa, cùng xem ngay Demo bên dưới với mình thôi nào!

Chia sẻ template blogspot đẹp đầy cá tính 2016



Demo
Đọc thêm »

Chia sẻ Template Blogspot tin tức MetroZic Responsive

MetroZic Responsive Blogger Templates là một template blogspot tin tức được thiết kế đa sắc màu với khá nhiều tính năng thú vị rất phù hợp cho blogger cá tính.

Hãy cùng BT4S khám phá mẫu này thông qua Demo bên dưới bạn nhé!

Chia sẻ Template Blogspot tin tức MetroZic Responsive



Demo
Đọc thêm »

Friday, January 22, 2016

Share Template Blogspot Đôi guốc mộc 2016

Template Blogspot Đôi guốc mộc được chia sẻ miễn phí vào đầu năm 2016 chắc chắn sẽ khiến nhiều bạn đang tham gia kiếm tiền với Google Adsense thích thú.

Một website được thiết kế đơn giản nhưng lại tối ưu về tốc độ tải trang và các vị trí đặt quảng cáo. Hãy cùng xem Demo bên dưới và cảm nhận bạn nhé!

Share Template Blogspot Đôi guốc mộc 2016




Demo
Đọc thêm »

fasdfasd

fasdfsdfsadf

Thursday, January 21, 2016

Cách tắt máy tính cho WIN 10

SAU ĐÂY LÀ CÁC CÁCH TẮT MÁY TÍNH CƠ BẢN DÙNG CHO WIN 10

Cách 1: Thực hiện thông qua menu Start.

 Các bạn nhấn vào nút menu ở góc dưới cùng bên trái để truy cập vào menu Start.
 Ảnh windows 10 luanvantinhoc
Trong menu Start, hãy nhấn vào biểu tượng Power Options nhỏ ở góc bên phải của tên tài khoản phía trên cùng của menu Start 
 Ảnh windows 10 luanvantinhoc

Cách 2: Thông qua menu Quick Access

  Ảnh windows 10 luanvantinhoc

Cách 3: Sử dụng hộp thoại Windows Shut Down.

Nhấn tổ hợp phím Alt + F4 để mở hộp thoại Shut Down Windows.



 Ảnh windows 10 luanvantinhoc

 Ảnh windows 10 luanvantinhoc

Cách 4: Thông qua ứng dụng Settings.

Bấm tổ hợp phím Windows + C để mở menu Charms và chọn Settings



 Ảnh windows 10 luanvantinhoc

Cách 5: Thiết lập tính năng cho nút nguồn

 Nhập vào khung Search cạnh menu Start từ khoá Power, sau đó chọn tuỳ chọn Power Options từ kết quả tìm kiếm hiển thị.trong danh sách các tùy chọn ở bên trái ngay dưới mục Power and sleep buttons and lid settings, bạn sẽ thấy tuỳ chọn When I press the power button có hai cột là On Battery (nếu bạn sử dụng máy tính để bàn sẽ không thấy tuỳ chọn này) và Plugged In. Bây giờ nhấp chuột vào mục ngay dưới cột On Battery hoặc Plugged In và chọn Shut down, sau đó bấm nút Save Changes để áp dụng thay đổi
 Ảnh windows 10 luanvantinhoc

Cách 6: Tắt máy nhanh thông qua shortcut

Chỉ cần kích chuột phải vào bất kỳ vùng trống nào trên desktop, sau đó chọn New> Shortcut. Trong hộp thoại Create shortcut hiển thị, bạn nhập vào lệnh sau vào khung trống dưới mục Type the location of the item:
% windir% \ System32 \ shutdown.exe / s / t 0
Sau đó bấm Next, rồi đặt tên cho shortcut bạn tạo ra, rồi bấm nút Finish để kết thúc
 Ảnh windows 10 luanvantinhoc

 Ảnh windows 10 luanvantinhoc







Phím tắt dành cho WIN 10

TỔNG HỢP CÁC PHÍM TẮT DÀNH CHO WIN 10

Phím tắtTác dụng
Windows + TabKích hoạt tính năng màn hình desktop ảo (Task View)
Windows + AKích hoạt thanh thông báo (Action Center)
Windows + CKích hoạt nhận diện giọng nói (Cortana)
Windows + DHiển thị Desktop
Windows + EKích hoạt trình quản lý file (File Explorer)
Windows + GKích hoạt Xbox Game Bar (giúp quay phim và chụp ảnh màn hình
khi chơi game)
Windows + HKích hoạt tính năng chia sẻ (Share)
Windows + IKích hoạt trình cài đặt (Settings)
Windows + KKích hoạt tính năng Connect (giúp kết nối với màn hình và
các thiết bị âm thanh không dây)
Windows + LKhóa máy
Windows + PThiết lập kết nối màn hình ngoài
Windows + RKích hoạt tính năng Run
Windows + SKích hoạt trợ lý ảo Cortana
Windows + XKích hoạt menu (ở nút Start)
Windows +
(L/R/U/D)*
Thu nhỏ ứng dụng sang một bên màn hình
(L/R để thu nhỏ sang trái, phải; U/D để thu nhỏ lên trên,
xuống dưới khi đang chạy đa nhiệm 4 ứng dụng)
Windows + Ctrl + DTạo màn hình desktop ảo mới
Windows + Ctrl + F4Đóng màn hình desktop ảo
Windows + Ctrl + L/RChuyển đổi giữa 2 màn hình desktop ảo
Windows + Shift + L/RChuyển ứng dụng từ màn hình này sang màn hình khác
(nếu có kết nối nhiều màn hình)
Windows + 1/2/3/...Mở ứng dụng đang ghim dưới taskbar
(theo thứ tự sắp xếp 1,2,3, ... trừ nút tìm kiếm Cortana và Task View)

* L (Left): Trái, R (Right): Phải, U (Up): Lên, D (Down): Xuống

Những chú ý nâng cấp WIN 10

 Ảnh windows 10 luanvantinhoc
Win 10

Windows 10 hiện đã chính thức mở cửa máy chủ cho hàng triệu máy tính trên thế giới truy cập và tải về bản cài trực tuyến Windows 10 thông qua Windows Updates hoặc bản cài iSO. 

Windows 10 sẽ chính thức được phát hành vào thời điểm trưa ngày 30/7 (giờ Việt Nam). Người dùng các phiên bản từ Windows 7 trở lên có thể tiến hành nâng cấp lên Windows 10 miễn phí trong vòng một năm kể từ khi phát hành. Hết thời hạn này, người dùng sẽ phải mua Windows 10 với giá 119 USD cho bản Windows 10 Home và 199 USD cho bản Windows 10 Pro.
Tuy nhiên, theo ghi nhận của nhiều người dùng Việt Nam cả bản Windows OEM cài sẵn lẫn Windows lậu cho biết họ đã bắt đầu nhận được thông báo cập nhật và file ESD tải về Windows 10 qua công cụ Get Windows 10 và Windows Update.

Mục tiêu cuối cùng của Microsoft khi tạo ra Windows 10 đó là biến hệ điều hành này thành một hẹ điều hành thống nhất mọi trải nghiệm. Bằng cách tung ra tính năng Continuum, Windows 10 có thể sẽ được sử dụng trên hầu hết các thiết bị chạy Windows 10 từ desktop, laptop, máy tính bảng cho tới điện thoại. Tất cả sẽ đều chung một trải nghiệm tương đồng.
Tính năng Continuum về cơ bản sẽ cho phép chuyển đổi các giao diện được tùy biến để thích hợp với các thiết bị. Ví dụ như khi chuyển đổi chiếc máy tính bảng Surface sang chế độ laptop, giao diện Windows 10 sẽ nhanh chóng được thay đổi để phù hợp với các thao tác khi làm việc với bàn phím và chuột. Quá trình chuyển đổi ngược lại cũng tương tự và sẽ đem tới một trải nghiệm mới bằng việc hỗ trợ thao tác cảm ứng.
Với điện thoại Windows Phone, người dùng cũng sẽ có những trải nghiệm tương tự với Continuum khi chúng có thể kết hợp cùng bàn phím hay chuột để tương tác như một chiếc máy tính thu nhỏ.

 Ứng dụng sẽ như thế nào?

Microsoft đã phát hành cửa hàng ứng dụng Universal Windows App. Đây là cửa hàng thống nhất mọi ứng dụng trên các nền tảng riêng biệt là Windows và Windows Phone OS trước kia của Microsoft. Với mong muốn đem lại một trải nghiệm thống nhất, các ứng dụng sẽ đều được thiết kế thích hợp dành cho mọi thiết bị từ PC tới điện thoại. Một trong những bộ ứng dụng nổi bật đó là Microsoft Office.
Những ứng dụng trước đây được thiết kế để thích với giao diện Metro hoặc Modern trước kia trên Windows 8 và 8.1 sẽ có thêm tùy chọn mở rộng toàn màn hình.
Ví dụ như trên Surface Pro 3, một thiết bị có khả năng chuyển đổi 2-trong-1. Tính năng Continuum trên Windows 10 sẽ giúp hiển thị thanh Start Menu truyền thống khi người dùng lắp đặt bàn phím và chuột vào máy. Tuy nhiên khi người dùng tách bàn phím và chuột, Surface Pro 3 sẽ nhanh chóng được chuyển sang giao diện hỗ trợ cảm ứng với các ứng dụng Metro/Mordern được bổ sung tùy chọn mở rộng toàn màn hình.


Bạn không cần quá lo bởi các ứng dụng Modern mà bạn mua sẽ được tính năng Continuum trên Windows 10 tự động tối ưu. Ở chế độ máy tính bảng, ứng dụng sẽ được hiển thị dưới dạng toàn màn hình. Nếu như chuyển sang chế độ desktop, ứng dụng sẽ được tự động chuyển sang dạng hiển thị cửa sổ để tiện sắp xếp trên màn hình.

 Menu Start như thế nào?

Nếu bạn ghét nút Start trên Windows 8 và 8.1 thì bạn đã có thể có những trải nghiệm tuyệt vời với màn quay trở lại ngoạn mục của thanh menu Start truyền thống trên Windows 10.
Thanh menu Start trên Windows 10 là sự kết hợp giữa hai dạng trải nghiệm của cả Windows thế hệ từ Windows 7 trở xuống và Windows 8 trở lên. Người dùng sẽ vừa có được những cài đặt, thư mục ở thanh bên trái mà vừa có được những cập nhật mới nhất từ nhiều ứng dụng Live Tiles hữu ích ở bên phải thanh menu Start.

Có cải tiến nào đáng chú ý trên Windows 10 không?

Đây là một câu hỏi hay vì Windows 10 là sự thay đổi ấn tượng chưa từng có của Microsoft.
Windows 10 đã cải tiến tính năng Snap cho phép người dùng bố trí các ứng dụng ở bốn góc màn hình thay vì chỉ có 3 ứng dụng như trước kia trên Windows 8.1. Hệ điều hành Windows 10 cũng hỗ trợ việc chuyển đổi ứng dụng thông minh hơn khi cung cấp tính năng Task View, giúp hiển thị ứng dụng đang chạy thành nhiều màn hình ảo để người dùng tiện theo dõi.
Trợ lý ảo Cortana đã chính thức được đưa lên Windows 10 như là một công cụ hỗ trợ người dùng thao tác trong nhiều tác vụ với hệ điều hành như gửi email, tìm kiếm, định hướng, tra cứu thông tin,...Tất cả việc người dùng cần làm đó là thực hiện câu lệnh "Hey Cortana".

Trình duyệt Internet Explorer có bị mất không?

Câu trả lời vừa có vừa không vì Microsoft vẫn sẽ giữ lại một phần của trình duyệt lâu đời Internet Explorer vì lý do tương thích với nhiều phiên bản hệ điều hành và cấu hình khác nhau. Tuy nhiên, nó đã bị thay thế bởi một trình duyệt hoàn toàn mới có tên Microsoft Edge. Trình duyệt mới này sẽ cung cấp rất nhiều các tính năng mới bao gồm hỗ trợ extension, chế độ đọc, lưu trang, ghi chú, tích hợp sâu hơn trợ lý ảo Cortana để tiện tìm kiếm và đặc biệt là tốc độ tải trang khá ấn tượng.
Theo Microsoft, cấu hình tối thiểu để chạy hệ điều hành Windows 10 đó là sử dụng bộ vi xử lý có tốc độ từ 1 GHz trở lên, tối thiểu RAM 1 GB (bản 32-bit) và 2GB (bản 64-bit) và ít nhất có 16GB dung lượng ổ cứng.
Trong quá trình cài đặt, có thể người dùng sẽ gặp phải một số tình trạng liên quan tới việc các thiết bị ngoại vi gặp lỗi, một số phần mềm có thể bị xóa, bao gồm cả những ứng dụng từ nhà sản xuất PC. Đồng thời cũng tùy vào phiên bản WIndows mà người dùng đang sử dụng mà nhiều tính năng sẽ có thay đổi để phù hợp.

Pages - Menu