前不久Scikit Learn迎來了它的第0.24版本,伴隨著大量有用的功能更新,並且照慣例做了一個highlight型的介紹。
這次的更新,基於highlight我會再依據自己實務上的經驗以及其他的知識,把重要的幾個feature做重點介紹。
目前已經有完成的包含
- 【完成】Kaggle最常使用的feature selection方法之一,Scikit Learn 0.24 更新 SequentialFeatureSelector 介紹,這篇介紹了sklearn最新的function SequentialFeatureSelector,並且結合了其他常見的feature selection一起做了介紹,並做了基礎的比較,也介紹了以前慣用的mlxtend裡面的SequentialFeatureSelector,並比較兩個function的核心差異。
- 【完成】ML調參數神物 Successive Halving !! sklearn 0.24開始支援,這篇介紹了Successive Halving以及這次sklearn推出的兩個對應的function HalvingGridSearchCV、HalvingRandomSearchCV,為了介紹successive halving的概念,我從傳統的hyperparameters tuning到multi-fidelity search做了一個完整的介紹。
- 【完成】Semi-supervised Learning in sklearn 0.24!! 如何利用那些沒有label的data,我先介紹了semisupervised learning的概念,然後就詳細講解了sklearn裡面目前有的3個function:LabelPropagation、LabelSpreading及0.24才更新的SelfTrainingClassifier。並且提供了我在使用他們時的小技巧跟要注意的點。
- Histogram-Based Gradient Boosting相關方法現在開始支援categorical features以及進行了一波加速,這個很重要,找時間會做xgboost、lightgbm、catboosting、HBGboosting的效能比較,這個比較沒有甚麼知識好寫,短期內不會寫,但是是很重要的更新。
- 【已有非常好的文章】Individual Conditional Expectation plots以及partial dependence plot的用處,這篇可能會又引出explainable ML的其他系列,ICE跟PDP的介紹已經有一篇寫得非常好了,希望大家去參考,https://medium.com/sherry-ai/xai-%E5%A6%82%E4%BD%95%E5%B0%8D%E9%9B%86%E6%88%90%E6%A8%B9%E9%80%B2%E8%A1%8C%E8%A7%A3%E9%87%8B-dd2aa0b58a19,後續如果要回頭來寫這個方向我應該會重點放在Explained ML的綜觀敘述。
主要這次就會把這5個方向的更新寫完,如果對其他相關sklearn的更新有興趣都可以在留言跟我討論,我再去研究看看以我的能力是否可以寫。
如果喜歡這篇文章可以幫我多拍手幾次XD,或是對於哪個類型文章有興趣都可以在留言區跟我講~ 後續會以中難度的ML/DS/AI知識為主,以及AI/HCI研究相關知識。