關於降維的疑問
2019/05/29 下午 03:41
機器學習共學討論版
陳冠彰
觀看數:5
回答數:1
收藏數:0
ml100
第一屆
降維
ml100-d61
老師們好,我是第一屆馬拉松的學員,複習教材時,有一句話於DAY61的PDF第7頁提到說---->當"特徵數量過多"時,使用 PCA 可能會造成 降維後的 underfitting,這時可以考慮使用 t-SNE 來降維,這邊不太能理解。
因教材前面僅提到,PCA會underfitting的原因可能是處理到了非線性的資料。
故想問"特徵數量過多"指的是PCA所能處理的特徵數量遠小於t-SNE嗎?請問有個大概的數量值嗎?
回答列表
-
2019/05/30 上午 01:19Seanyu.TW贊同數:3不贊同數:0留言數:0
Hi,PCA 會將多個特徵從 N --> n 維,在取得 top-n 的過程中,會將特徵投影到相交的軸上 (難以言述,用圖解較快)
PCA 的問題在於它在壓縮特徵的過程中,並不會保留資料點在空間上的距離關係,也就是說在高維空間中兩個距離很遠的點,投影到二維平面時,他們可能變得很近。
而 TSNE 的優勢就在於它的算法 (有點複雜...) 會保留實際空間上的特性,所以保留的訊息也較多。