logo
Loading...

【請益】 資料集全部特徵皆為二元類別 (Yes 和 No) 的機器學習資料分群問題 - Cupoy

各位好,最近嘗試在處理二元資料類別的資料,遇到一些問題,也發現網路上很少有討論到"資料集全...

分群,機器學習

【請益】 資料集全部特徵皆為二元類別 (Yes 和 No) 的機器學習資料分群問題

2022/05/18 上午 01:17
機器學習共學討論版
Ian Chen
觀看數:6
回答數:0
收藏數:0
分群
機器學習

各位好,最近嘗試在處理二元資料類別的資料,遇到一些問題,也發現網路上很少有討論到"資料集全部特徵皆為二元類別"的相關內容,以下是我的處理資料時的幾個疑問 : 問題 1 : 做資料分群時,應該要事先將有class label的資料欄位移除,再做分群,還是不移除直接做分群呢? 在我的認知中,將有 class label 的資料移除 class label 進行分群後,class label 欄位可以作為分群後的檢視,並評估演算法是否有錯誤分類。 另外,我認為將有 class label 的資料集直接去做分群,分群的結果會依據 class label 作為分群結果 (如 iris 資料集就是如此),想請問這樣的情況是否有例外呢 ? 還是說要取決於資料集本身是多元分類還是二元分類呢 ? 比如多元分類的資料集,假設 class label 有五種,倘若我們不移除 class label 欄位,直接一起做分群,那分群結果是否一定會呈現 5 種分類,且與 class label 的分類吻合呢 ? 又比如在二元分類的資料集,倘若我們不移除 class label 欄位,直接一起做分群,那分群結果是否一定會呈現 2 種分類 (y or n),且與 class label 的分類吻合呢 ? 目前對於移除 class label 對於資料分群的影響,以及是否該移除 class label 這部分感到十分困惑 ! 問題 2 : elbow method、Silhouette score <移除class label後> 使用這份資料集進行elbow method、Silhouette score計算後得到的結果如下: 1. SSE沒有轉折點 ![messageImage_1652805566694.jpg](http://kwassistfile.cupoy.com/00000180D301B343000000016375706F795F72656C656173655155455354/1652750732646/large) 2.number of cluster設定為10的時候 群數10的數值是最高的 ![sB2HFkS.png](http://kwassistfile.cupoy.com/00000180D301B343000000016375706F795F72656C656173655155455354/1652750732648/large) 3.number of cluster設定為20的時候 很明顯可以看到曲線的上升幅度很大 ![messageImage_1652805582228.jpg](http://kwassistfile.cupoy.com/00000180D301B343000000016375706F795F72656C656173655155455354/1652750732647/large) <未移除class label> 使用這份資料集進行elbow method、Silhouette score計算後得到的結果如下: 1. SSE沒有轉折點 ![rKM5wHQ.png](http://kwassistfile.cupoy.com/00000180D301B343000000016375706F795F72656C656173655155455354/1652750732649/large) 2.number of cluster設定為10的時候 群數2的數值是最高的 ![dyZEsb1h.jpg](http://kwassistfile.cupoy.com/00000180D301B343000000016375706F795F72656C656173655155455354/1652750732650/large) 3.number of cluster設定為20的時候 群數2一樣是最高的,群數不斷增加後,曲線有上升 ![2ddXIf5h.jpg](http://kwassistfile.cupoy.com/00000180D301B343000000016375706F795F72656C656173655155455354/1652750732651/large) 想請問以上這樣的情況,代表這份資料集有問題嗎 ? 比如是收集問題導致資料品質不佳 ? 或是這樣的結果要怎麼解讀呢 ? 以上問題,勞煩各位專家解惑了,不勝感激 !

回答列表