Tuesday, January 26, 2016

Công cụ RANDOM FOREST WEKA

CÔNG CỤ RANDOM FOREST

random Forest weka

 Giới thiệu thuật toán Random Forest

Thuật toán RF - RandomForest là một thuật toán đặc biệt dựa trên kỹ thuật lắp ghép, Về bản chất thuật toán RF được xây dựng dựa trên nền tảng thuật toán phân lớp cây phân loại và hồi quy, sử dụng kỹ thuật có tên gọi là “bagging” Thuật toán này cho phép lựa chọn một nhóm nhỏ các thuộc tính tại mỗi nút của cây để phân chia cho mức tiếp theo của cây phân lớp. Bằng cách chia nhỏ không gian tìm kiếm thành các cây nhỏ hơn như vậy cho phép thuật toán có thể phân loại một cách rất nhanh chóng cho dù không gian thuộc tính rất lớn. Các tham số đầu vào của thuật toán khá đơn giản bao gồm các thuộc tính được chọn trong mỗi lần phân chia. Giá trị mặc định của tham số này là căn bậc hai của p với p là số lượng các thuộc tính. Số lượng cây được tạo ra là không hạn chế và cũng không sử dụng bất kỳ kỹ thuật nào để hạn chế mở rộng cây. Phải lựa chọn tham số cho biết số lượng cây sẽ được sinh ra sao cho đảm bảo rằng sẽ mỗi một thuộc tính sẽ được kiểm tra một vài lần. Thuật toán sử dụng kỹ thuật “out of bag” để xây dựng tập huấn luyện và phương pháp kiểm tra trên nó

Lịch sử của thuật toán Random Forest

Thuật toán tạo một rừng ngẫu nhiên được phát triển bởi Leo Breiman và Adele Cutler , thuật ngữ Random Forest được lấy làm tên phổ biến cho thuật toán này. Thuật ngữ RF được xuất lần đầu tiên năm 1995, sau đó kết hợp với phương pháp “bagging” trong lựa chọn các thuộc tính ngẫu nhiên của Leo Breiman năm 1996 để xây dựng phương pháp chọn các cây quyết theo các thay đổi có thể kiểm soát được. Năm 2001 Breiman xây dựng thuật toán RF có bổ sung thêm một lớp ngẫu nhiên để phân lớp. Ngoài việc xây dựng mỗi cây sử dụng các mẫu dữ liệu khác nhau, các rừng ngẫu nhiên được thay đổi để xây dựng các cây phân loại và hồi quy khác nhau. Các gói thư viện cài đặt thuẩt toán RF được xây dựng bằng ngôn ngữ Fortran bởi Leo Breiman và Cutler

Thuật toán Random Forest

Random Forest (rừng ngẫu nhiên). Là một phương pháp phân lớp và hồi quy dựa trên việc kết hợp kết quả dự đoán của một số lượng lớn các cây quyết định.  chúng ta có thể liên tưởng tới việc bầu cử theo nguyên tắc phổ thông đầu phiếu. Nếu sử dụng một cây quyết định chẳng khác nào việc bầu cử mà chỉ có 1 người bỏ phiếu. Việc sinh các cây quyết định từ một mẫu dữ liệu nhằm đa dạng hoá các “phiếu bầu” (giống như việc mọi thành phần, tầng lớp, giai cấp đều được đi bỏ phiếu) cho kết luận. Việc áp dụng các kỹ thuật sinh ra các mẫu dữ liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị tật” trong rừng (giống việc cho phép công dân không cần phân biệt trình độ học vấn, sức khỏe... đi bầu cử). Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp cho chúng ta cái nhìn đa chiều, chi tiết hơn và do đó kết luận sẽ có tính chính xác, gần với thực tế hơn. Trong thực tế RF đã trở thành một công cụ tin cậy cho phân tích dữ liệu đặc biệt là dữ liệu tin sinh học. 
THUẬT TOÁN RANDOM FOREST ÁP DỤNG WEKA:  Tải về
( Hướng dẫn tải về: Tích vào tôi không phải là người máy--> đợi 3s kích trực tiếp getlink hoặc phải chuột getlink mở cửa sổ mới)  

No comments:

Post a Comment

Pages - Menu