logo
Loading...

關於降維的疑問 - Cupoy

老師們好,我是第一屆馬拉松的學員,複習教材時,有一句話於DAY61的PDF第7頁提到說---->當"...

ml100,第一屆,降維,ml100-d61

關於降維的疑問

2019/05/29 下午 03:41
機器學習共學討論版
陳冠彰
觀看數:5
回答數:1
收藏數:0
ml100
第一屆
降維
ml100-d61

老師們好,我是第一屆馬拉松的學員,複習教材時,有一句話於DAY61的PDF第7頁提到說---->當"特徵數量過多"時,使用 PCA 可能會造成 降維後的 underfitting,這時可以考慮使用 t-SNE 來降維,這邊不太能理解。

因教材前面僅提到,PCA會underfitting的原因可能是處理到了非線性的資料。

故想問"特徵數量過多"指的是PCA所能處理的特徵數量遠小於t-SNE嗎?請問有個大概的數量值嗎?

回答列表

  • 2019/05/30 上午 01:19
    Seanyu.TW
    贊同數:3
    不贊同數:0
    留言數:0

    Hi,PCA 會將多個特徵從 N --> n 維,在取得 top-n 的過程中,會將特徵投影到相交的軸上 (難以言述,用圖解較快)

    PCA 的問題在於它在壓縮特徵的過程中,並不會保留資料點在空間上的距離關係,也就是說在高維空間中兩個距離很遠的點,投影到二維平面時,他們可能變得很近。

    而 TSNE 的優勢就在於它的算法 (有點複雜...) 會保留實際空間上的特性,所以保留的訊息也較多。