logo
Loading...

feature map壓縮是基於什麼狀況決定? pool_size的作用 - Cupoy

1. 請問「高度被壓縮成小於4,8<寬度<20」是基於什麼狀況決定? 講義不是說高度要壓成1,寬度大...

cvdl-1,cvdl-1-d22

feature map壓縮是基於什麼狀況決定? pool_size的作用

2019/12/24 上午 10:52
電腦視覺深度學習討論版
周乃森
觀看數:17
回答數:1
收藏數:0
cvdl-1
cvdl-1-d22

1. 請問「高度被壓縮成小於4,8<寬度<20」是基於什麼狀況決定? 講義不是說高度要壓成1,寬度大約為4*2+1=9; 範例程式的寬度是13是否有什麼特別的意義呢?

2. MaxPooling2D(pool_size=(2, 1))(x)的pool_size=(2, 1)的作用是? 因為驗證碼是長方形嗎? 還是為了湊出feature map的size呢? 為了要湊出「2被的字串長+1」嗎?

3. Reshape以符合CTC Loss能否做個解釋?

4. 若須要OCR的Image中的文字數量不一定(EX: 金額位數不一樣),這樣也能使用這個方式嗎?

labels = Input(name='the_labels', shape=[n_len], dtype='float32') <- 設計model這段程式碼中,shape用list表示,感覺像是可以辨識不固定文字長度的影像

回答列表

  • 2019/12/24 上午 11:50
    楊哲寧
    贊同數:1
    不贊同數:0
    留言數:2

    您好,以下會依序解答:

    1.首先高度的部分壓成1會比較好理解,就像是把這個寬度的資訊都壓在一起,但怕學員對feature Map的掌控還不太熟悉,因此壓到一定範圍內,再用reshape處理也可。寬度部分其實只要大於9就可,但太大也會影響準確率,所以限制在一定範圍,13沒有特殊意義。

    2.是的,只是為了控制寬度。

    3.ctc loss input為(batch_size,訊息長度(13),classes),所以先把CNN輸出轉乘成這個格式。

    4.可以的,只要訓練時告訴模型每個字串長度即可。