logo
Loading...

資料量不足需要做 data augmentation? - Cupoy

目前遇到需要增加資料量的問題,看起來 CV 要做 data augmentation 簡單很多,但是...

資料量不足需要做 data augmentation?

2020/06/10 上午 03:40
機器學習共學討論版
Yang Wang
觀看數:51
回答數:2
收藏數:2

目前遇到需要增加資料量的問題,看起來 CV 要做 data augmentation 簡單很多,但是在 NLP 中似乎就比較少 robust 的方法。 目前查到就是利用 Synonyms Replace、Randomly Insert、Randomly Swap、Randomly Delete 這四種方法。 那似乎直接用 BERT 會是最快又最好的方式,自己做 feature engineering 就比較無法得到代表性足夠的表徵?


我怕的是使用 data augmentation technique 在 text data 上面會變動 original data 的 distribution,那這時候應該就無法增加資料,只能從模型上面或是 feature 上面做改進?

回答列表

  • 2020/06/12 上午 05:43
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    嗨,Yang Wang ,以下回復你的問題


    自己做 feature engineering 就比較無法得到代表性足夠的表徵?


    => 一般 NLP 的特徵本來就很多(如果你是用文字向量的話),所以比較多的處理都是想要讓特徵變少的降維或是特徵選擇比較多。你這裡講的資料量不足,是指資料筆數不夠還是特徵欄位不夠?


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃

  • 2020/06/12 上午 05:45
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    我怕的是使用 data augmentation technique 在 text data 上面會變動 original data 的 distribution,那這時候應該就無法增加資料,只能從模型上面或是 feature 上面做改進?


    => 改變 distribution 在機器學習上是常見的手法,基本上是沒問題的。


    如果這個回答對你有幫助請主動點選「有幫助」的按鈕,也可以追蹤我的GITHUB帳號。若還有問題的話,也歡迎繼續再追問或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃