對提取的特徵進行分群是否存在維度災難問題? - Cupoy

已經知道當面對高維度資料時分群演算法(如kmeans, dbscan等)會陷入維度災難問題而無法得到...

對提取的特徵進行分群是否存在維度災難問題?

2022/11/05 上午 04:59

電腦視覺深度學習討論版

林柏宇

觀看數：62

回答數：1

收藏數：0

已經知道當面對高維度資料時分群演算法(如kmeans, dbscan等)會陷入維度災難問題而無法得到良好效果。那麼使用CNN的模型提取出來的特徵是否還適合拿去進行分群呢？舉例來說，有一資料集透過resnet50(去掉最後fc層)進行特徵提取得到2048維的特徵。接者將這些2048維特徵拿去進行KMeans是否也會陷入相同的問題呢？更進一步的問題還有 1. 假設這樣會有維度災難問題是否先做降維是較適合的做法呢？抑或是怎麼處理叫好呢？想聽聽老師們的意見。 2. 究竟多少維的資料會陷入這所謂的維度災難問題呢？

回答列表

2022/11/07 下午 03:36

王健安

贊同數：0

不贊同數：0

留言數：2

林柏宇您好，維度災難會發生在迴歸或分類的任務中，當相似性質的特徵與目標值有關連性的同時，特徵之間也會有關聯性，例如：假設我想測試「肺活量」，其中兩個特徵為「跑步的秒數」與「游泳的秒數」，可以想像到這兩種運動都跟肺活量有很大的關係，但有時也會發生「跑步的秒數高」而「游泳的秒數低」，這樣就會發生干擾的現象。在統計領域中，「當樣本數小於等於特徵數時，就已經會發生維度災難」，這個理論奠基在線性迴歸的 ANOVA table，那在機器學習領域中則尚未有很明確的公式推導出維度災難的標準。若真的發生維度災難，最簡單的方法就是「降維」，例如：Principle Component Analysis、Singular Value Decomposition 或是 AutoEncoder 等。至於分群任務並沒有「目標值」，單純是找到相似的資料並且歸類在一起，它並不會有「因為相似特徵卻有矛盾的結果，而導致目標值有偏誤」的現象，因此「分群任務不大需要在意維度災難的問題」。