feature map壓縮是基於什麼狀況決定? pool_size的作用

2019/12/24 上午 10:52

電腦視覺深度學習討論版

周乃森

觀看數：17

回答數：1

收藏數：0

cvdl-1

cvdl-1-d22

1. 請問「高度被壓縮成小於4，8<寬度<20」是基於什麼狀況決定? 講義不是說高度要壓成1，寬度大約為4*2+1=9; 範例程式的寬度是13是否有什麼特別的意義呢?

2. MaxPooling2D(pool_size=(2, 1))(x)的pool_size=(2, 1)的作用是? 因為驗證碼是長方形嗎? 還是為了湊出feature map的size呢? 為了要湊出「2被的字串長+1」嗎?

3. Reshape以符合CTC Loss能否做個解釋?

4. 若須要OCR的Image中的文字數量不一定(EX: 金額位數不一樣)，這樣也能使用這個方式嗎?

labels = Input(name='the_labels', shape=[n_len], dtype='float32') <- 設計model這段程式碼中，shape用list表示，感覺像是可以辨識不固定文字長度的影像