在上個單元,我們已經認識了決策樹模型。本單元,我們將以sklearn模組來進行決策樹模型的實作。
(一) 引入模組
首先,我們從sklearn模組裡面引入決策樹模型、資料集、決策數節點輸出以及區分訓練集資料與測試及資料的功能。
from sklearn import tree
from sklearn import datasets
import pydotplus
from sklearn.model_selection import train_test_split
(二) 模型建構
Step1. 建立特徵X,與目標y
Step2. 將資料區分成訓練集與測試集,可自行設定區分的百分比X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
Step3. 用訓練集資料來建構模型,可自行選擇方法以及是否需要限制樹的增長,以避免過度配適。clf=tree.DecisionTreeClassifier(criterion='gini',max_depth=3).fit(X_train,y_train)
Step4. 用建立好的模型來預測資料clf.predict(X_test)
Step5. 檢驗模型的正確率clf.score(X_test,y_test)
到了這邊,相信大家都可以輕鬆在python裡建構自己的決策樹模型,用自己的資料做決策數模型的機器學習囉!
詳細操作過程歡迎參考影片內容。
程式檔的部分可在此下載