[機器學習首部曲]隨機森林模型簡介 Random Forest

本篇文章主要簡單介紹隨機森林模型,以及背後的運行原理。

什麼是隨機森林?

隨機森林其實就是一個包含多棵決策樹的模型,在森林裡面建構一棵棵各自獨立的決策樹,最後以投票方式(眾數/取平均)來決定最終的結果。

隨機森林的運作原理

隨機森林最主要的運作原理為Bagging,採取取後放回的方式建立資料子集,並用這些不同的資料子集來建立森林裡的決策數。

隨機森林採用Bootstrap的方式分別對樣本以及特徵進行取後放回的抽樣,建立起一棵棵的決策樹。在兩個隨機因子之下,讓隨機森林較不容易產生過度配適的現象。

當森林裡的決策樹都建構好後,最終將以投票的方式來決定結果。對於離散型的資料,將採取個別決策樹結果的眾數;對於連續型的資料,則採取個別決策樹結果的平均值。

隨機森林的優缺點

隨機森林可以處理的資料集非常廣泛,可處理連續型資料亦可處理離散型的資料,更可以處理高維度的特徵資料。此外,在兩種隨機因子的抽取下,更可以讓隨機森林不容易產生過度配適的結果。

另一方面,過多的決策樹容易導致計算成本的提高,包含時間與空間的成本。另外,若資料本身的雜訊過多,還是會讓隨機森林出現過度配適的結果。

小結

綜合以上,簡單來說其實隨機森林就是一個包含多棵決策樹的模型,但事先透過兩個隨機因子抽樣的處理。對於隨機森林裡決策樹模型的建構有興趣的朋友,歡迎參考我們決策樹介紹的單元唷!

更多內容歡迎參考影片。下個單元,我們將一起用Python來實作隨機森林唷!

Share

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *