logo
Loading...

資料量不足需要做 data augmentation? - Cupoy

目前遇到需要增加資料量的問題,看起來 CV 要做 data augmentation 簡單很多,但是...

資料量不足需要做 data augmentation?

2020/06/09 07:40 PM
機器學習新手論壇
Yang Wang
觀看數:0
回答數:2
收藏數:2

目前遇到需要增加資料量的問題,看起來 CV 要做 data augmentation 簡單很多,但是在 NLP 中似乎就比較少 robust 的方法。 目前查到就是利用 Synonyms Replace、Randomly Insert、Randomly Swap、Randomly Delete 這四種方法。 那似乎直接用 BERT 會是最快又最好的方式,自己做 feature engineering 就比較無法得到代表性足夠的表徵?


我怕的是使用 data augmentation technique 在 text data 上面會變動 original data 的 distribution,那這時候應該就無法增加資料,只能從模型上面或是 feature 上面做改進?