logo
Loading...

對提取的特徵進行分群是否存在維度災難問題? - Cupoy

已經知道當面對高維度資料時分群演算法(如kmeans, dbscan等)會陷入維度災難問題而無法得到...

對提取的特徵進行分群是否存在維度災難問題?

2022/11/05 上午 04:59
電腦視覺深度學習討論版
林柏宇
觀看數:4
回答數:1
收藏數:0

已經知道當面對高維度資料時分群演算法(如kmeans, dbscan等)會陷入維度災難問題而無法得到良好效果。 那麼使用CNN的模型提取出來的特徵是否還適合拿去進行分群呢? 舉例來說,有一資料集透過resnet50(去掉最後fc層)進行特徵提取得到2048維的特徵。 接者將這些2048維特徵拿去進行KMeans是否也會陷入相同的問題呢? 更進一步的問題還有 1. 假設這樣會有維度災難問題是否先做降維是較適合的做法呢?抑或是怎麼處理叫好呢?想聽聽老師們的意見。 2. 究竟多少維的資料會陷入這所謂的維度災難問題呢?

回答列表

  • 2022/11/07 下午 03:36
    王健安
    贊同數:0
    不贊同數:0
    留言數:2

    林柏宇 您好, 維度災難會發生在迴歸或分類的任務中, 當相似性質的特徵與目標值有關連性的同時, 特徵之間也會有關聯性, 例如:假設我想測試「肺活量」,其中兩個特徵為「跑步的秒數」與「游泳的秒數」, 可以想像到這兩種運動都跟肺活量有很大的關係, 但有時也會發生「跑步的秒數高」而「游泳的秒數低」, 這樣就會發生干擾的現象。 在統計領域中, 「當樣本數小於等於特徵數時,就已經會發生維度災難」, 這個理論奠基在線性迴歸的 ANOVA table, 那在機器學習領域中則尚未有很明確的公式推導出維度災難的標準。 若真的發生維度災難, 最簡單的方法就是「降維」, 例如:Principle Component Analysis、Singular Value Decomposition 或是 AutoEncoder 等。 至於分群任務並沒有「目標值」, 單純是找到相似的資料並且歸類在一起, 它並不會有「因為相似特徵卻有矛盾的結果,而導致目標值有偏誤」的現象, 因此「分群任務不大需要在意維度災難的問題」。