特徵工程在深度學習重要性為何?

2020/02/21 上午 10:50

機器學習共學討論版

郭浩傑

觀看數：62

回答數：4

收藏數：1

ml100-2

ml100-2-d64

主辦方提供的簡報中( 深度學習節目簡報優化_0718-PDF浮水印_NEW )，FAQ4 : 傳統的ML，需要先進⾏Feature Transform / Feature Engineer，但DL 不⽤...(略)，與Day64 簡報提到深度學習還是要考慮資料工程，有無判斷標準或是必用的特徵工程方法?

/44d

回答列表

2020/02/21 上午 11:22

Jeffrey

贊同數：1

不贊同數：0

留言數：0
2020/02/21 下午 04:41

張維元 (WeiYuan)

贊同數：2

不贊同數：0

留言數：0

傳統 ML 的「特徵工程」著重在找出「特徵」與「目標」間的關係，所以會利用「特徵組合」、「特徵降維」等等的方式，把特徵變多再篩選的方式進行。

深度學習算法本身就擁有這種「找出特徵與目標」關係的意涵，因此比較著重的是如何從「原始資料中定義出特徵」這個行為。舉個例子，像是怎麼把一張 1024*1024 的圖轉換成一維的向量，如何定義特徵這種問題。
2020/02/22 上午 08:44

陳明佑 (Ming You Chen)

贊同數：1

不贊同數：0

留言數：0

相較於深度學習的自動尋參

傳統機器學習的方法，最佳方式並沒有固定的套路

不同類型的機器學習題目，其最佳特徵往往都需要仰賴該題目的領域知識

在原本該領域中有效的特徵，在傳統機器學習當中也通常會是最有用的特徵

但是次佳方式，確實有一些規則可循

就像百日馬拉松提到的GroupBy Encoding(又稱為Aggregation)

以及時間類型的常用特徵，直至目前仍是競賽中的特徵主流
2020/02/22 下午 01:09

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：0

明佑專家這一段「傳統機器學習的方法，最佳方式並沒有固定的套路。不同類型的機器學習題目，其最佳特徵往往都需要仰賴該題目的領域知識。在原本該領域中有效的特徵，在傳統機器學習當中也通常會是最有用的特徵。」的意思可解讀為傳統機器學習方法中的特徵必須經由「嘗試」與「經驗」整理出來，並沒有依一定怎麼做會最佳。

另外一個角度，深度學習中的特徵通常只是依照資料作轉換，真正的優化過程是在模型端處理。