Loading...

文字圖片辨識問題 - Cupoy

我想請問一下如果今天題目是我想辨識如下的文字圖片並且：1. 包含中間精確的空格數例如y到7中間...

cvdl-1,cvdl-1-d22

AI共學社群

文字圖片辨識問題

2019/12/27 上午 10:34

電腦視覺深度學習討論版

黃易辰

觀看數：13

回答數：1

收藏數：3

cvdl-1

cvdl-1-d22

我想請問一下

如果今天題目是我想辨識如下的文字圖片並且：

1. 包含中間精確的空格數例如y到7中間是1格, 7到8之間是四格

2. 浮動的字串長度

3. 浮動的圖片大小（高會到二至三倍, 長度約+- 50% 的變化）

請問有什麼建議的作法嗎？

比方說我該對每個輸入batch去隨機改變大小

或著固定模型的大小只在推論階段改變輸入圖片的大小（但是可能長寬比例改變影響圖片內容）

以及這樣 CNN 的壓縮尺度跟講義上提到的都一致嗎？是否需要調整？

謝謝！

回答列表

2019/12/27 下午 03:14

楊哲寧

贊同數：0

不贊同數：0

留言數：2

您好，以下依序回答：

1.針對第一題，您可以把空格當作一個class，但這個空格跟CTC本身的空格還是不一樣的，所以還是要留一個位置給CTC的空格，我試過predict空格是沒問題的，但不確定有沒有辦法精準到知道幾個空格，這部分可以試試看。

2.浮動字串長度沒問題，CTC loss中有一項label_length，這裡是可以依照字串長度給不同數字的。

3.針對不同大小的圖片，我自己的方法是，全部resize到相同高度，寬度則依比例縮放，最後在padding成一樣長度，舉個例子，我把所有input resize到 (64,~)，寬限制1280，resize完圖片寬不到1280就padding到1280，超過就強迫resize到1280，之所以會這樣做是因為我已經檢查過所有資料的寬/高比，最大就是20，所以1280沒問題。而預測時只要resize 到 (64,~)即可，寬度可以浮動。