文字圖片辨識問題
2019/12/27 上午 10:34
電腦視覺深度學習討論版
黃易辰
觀看數:13
回答數:1
收藏數:3
cvdl-1
cvdl-1-d22
我想請問一下
如果今天題目是我想辨識如下的文字圖片 並且:
1. 包含中間精確的空格數 例如y到7中間是1格, 7到8之間是四格
2. 浮動的字串長度
3. 浮動的圖片大小(高會到二至三倍, 長度約+- 50% 的變化)
請問有什麼建議的作法嗎?
比方說我該對每個輸入batch去隨機改變大小
或著固定模型的大小 只在推論階段改變輸入圖片的大小 (但是可能長寬比例改變 影響圖片內容)
以及 這樣 CNN 的壓縮尺度跟講義上提到的都一致嗎?是否需要調整?
謝謝!
回答列表
-
2019/12/27 下午 03:14楊哲寧贊同數:0不贊同數:0留言數:2
您好,以下依序回答:
1.針對第一題,您可以把空格當作一個class,但這個空格跟CTC本身的空格還是不一樣的,所以還是要留一個位置給CTC的空格,我試過predict空格是沒問題的,但不確定有沒有辦法精準到知道幾個空格,這部分可以試試看。
2.浮動字串長度沒問題,CTC loss中有一項label_length,這裡是可以依照字串長度給不同數字的。
3.針對不同大小的圖片,我自己的方法是,全部resize到相同高度,寬度則依比例縮放,最後在padding成一樣長度,舉個例子,我把所有input resize到 (64,~),寬限制1280,resize完圖片寬不到1280就padding到1280,超過就強迫resize到1280,之所以會這樣做是因為我已經檢查過所有資料的寬/高比,最大就是20,所以1280沒問題。而預測時只要resize 到 (64,~)即可,寬度可以浮動。