SSD object detection 參考文章 VGG16架構解說
2020/01/07 上午 09:09
電腦視覺深度學習討論版
JJLai
觀看數:49
回答數:1
收藏數:0
cvdl-1
cvdl-1-d29
裡面有個圖
這個圖示解讀有點困難
1. Conv5_3和Conv4_3是什麼,文章中有是到Conv4_3,可是不懂它是什麼?
2. 文章中有一段「For illustration, we draw the Conv4_3 to be 8 × 8 spatially (it should be 38 × 38)」,又是8x8,然後又說shoud be 38x38,實在是不太懂。
3. 它有提到做預測時「regardless of the depth of the feature maps」那它是厚度的每一層相加做預測,還是取其中一層做預測?
再請老師與各位專家解惑,感謝。
回答列表
-
2020/01/07 下午 10:41楊哲寧贊同數:0不贊同數:0留言數:2
您好,以下依序回答:
1.Conv4_3、Conv5_3只是VGG中對feature Map的命名,因為SSD的backbone是用VGG所以原作者有特別說明一下是拿哪些層出來使用。
2.SSD中用來predict的feature Map最大是38*38,這裡Medium作者只是要告訴你他用8*8的圖來示意,原文其實是用38*38的feature Map。
3.這邊的意思是指,每個box要預測delta(x,y,w,h),但是我們可以選擇要幾個box,如Faster R-CNN選九個,深度就是4*9=36,所以不管你深度多深,每4個值代表一個BOX。