資料量不足需要做 data augmentation?
2020/06/10 上午 03:40
機器學習共學討論版
Yang Wang
觀看數:51
回答數:2
收藏數:2
目前遇到需要增加資料量的問題,看起來 CV 要做 data augmentation 簡單很多,但是在 NLP 中似乎就比較少 robust 的方法。 目前查到就是利用 Synonyms Replace、Randomly Insert、Randomly Swap、Randomly Delete 這四種方法。 那似乎直接用 BERT 會是最快又最好的方式,自己做 feature engineering 就比較無法得到代表性足夠的表徵?
我怕的是使用 data augmentation technique 在 text data 上面會變動 original data 的 distribution,那這時候應該就無法增加資料,只能從模型上面或是 feature 上面做改進?
回答列表
-
2020/06/12 上午 05:43張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
-
2020/06/12 上午 05:45張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
「我怕的是使用 data augmentation technique 在 text data 上面會變動 original data 的 distribution,那這時候應該就無法增加資料,只能從模型上面或是 feature 上面做改進?」
=> 改變 distribution 在機器學習上是常見的手法,基本上是沒問題的。
如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃