logo
Loading...

文字圖片辨識問題 - Cupoy

我想請問一下 如果今天題目是我想辨識如下的文字圖片 並且:1. 包含中間精確的空格數 例如y到7中間...

cvdl-1,cvdl-1-d22

文字圖片辨識問題

2019/12/27 上午 10:34
電腦視覺深度學習討論版
黃易辰
觀看數:13
回答數:1
收藏數:3
cvdl-1
cvdl-1-d22

我想請問一下 

如果今天題目是我想辨識如下的文字圖片 並且:

1. 包含中間精確的空格數 例如y到7中間是1格, 7到8之間是四格

2. 浮動的字串長度

3. 浮動的圖片大小(高會到二至三倍, 長度約+- 50% 的變化)


請問有什麼建議的作法嗎?

比方說我該對每個輸入batch去隨機改變大小

或著固定模型的大小 只在推論階段改變輸入圖片的大小 (但是可能長寬比例改變 影響圖片內容)

以及 這樣 CNN 的壓縮尺度跟講義上提到的都一致嗎?是否需要調整?

謝謝!

回答列表

  • 2019/12/27 下午 03:14
    楊哲寧
    贊同數:0
    不贊同數:0
    留言數:2

    您好,以下依序回答:

    1.針對第一題,您可以把空格當作一個class,但這個空格跟CTC本身的空格還是不一樣的,所以還是要留一個位置給CTC的空格,我試過predict空格是沒問題的,但不確定有沒有辦法精準到知道幾個空格,這部分可以試試看。

    2.浮動字串長度沒問題,CTC loss中有一項label_length,這裡是可以依照字串長度給不同數字的。

    3.針對不同大小的圖片,我自己的方法是,全部resize到相同高度,寬度則依比例縮放,最後在padding成一樣長度,舉個例子,我把所有input resize到 (64,~),寬限制1280,resize完圖片寬不到1280就padding到1280,超過就強迫resize到1280,之所以會這樣做是因為我已經檢查過所有資料的寬/高比,最大就是20,所以1280沒問題。而預測時只要resize 到 (64,~)即可,寬度可以浮動。