資料量不足需要做 data augmentation?

2020/06/10 上午 03:40

機器學習共學討論版

Yang Wang

觀看數：51

回答數：2

收藏數：2

目前遇到需要增加資料量的問題，看起來 CV 要做 data augmentation 簡單很多，但是在 NLP 中似乎就比較少 robust 的方法。目前查到就是利用 Synonyms Replace、Randomly Insert、Randomly Swap、Randomly Delete 這四種方法。那似乎直接用 BERT 會是最快又最好的方式，自己做 feature engineering 就比較無法得到代表性足夠的表徵？

我怕的是使用 data augmentation technique 在 text data 上面會變動 original data 的 distribution，那這時候應該就無法增加資料，只能從模型上面或是 feature 上面做改進？

回答列表

2020/06/12 上午 05:43

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

嗨，Yang Wang ，以下回復你的問題

「自己做 feature engineering 就比較無法得到代表性足夠的表徵？」

=> 一般 NLP 的特徵本來就很多（如果你是用文字向量的話），所以比較多的處理都是想要讓特徵變少的降維或是特徵選擇比較多。你這裡講的資料量不足，是指資料筆數不夠還是特徵欄位不夠？

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/06/12 上午 05:45

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

「我怕的是使用 data augmentation technique 在 text data 上面會變動 original data 的 distribution，那這時候應該就無法增加資料，只能從模型上面或是 feature 上面做改進？」

=> 改變 distribution 在機器學習上是常見的手法，基本上是沒問題的。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃