物件偵測如何結合產生應用結果
2020/03/03 下午 08:28
電腦視覺深度學習討論版
Kent
觀看數:27
回答數:2
收藏數:0
cvdl-1
cvdl-1-d39
關於圖像/影像辨識的應用問題,想到一種應用方式,但不甚確定想與專家老師們請益一下這個想法的可行性...
首先,當我從電影預告中預測出 1.物件2.背景/場景3.情境(可能呼?)
上述的三項物件還包含了時間軸,而時間軸上還附加了字幕,
換言之從時間軸上可以得知四項物件,
那麼是否可以利用時間軸與四項物件預測電影的類別或標籤呢???
這裡面比較不確定的部分是是否需要用到RNN(因為時間軸)去推論電影的類型???
感覺上不用RNN也可以?但因為時間軸的關係又好像需要...
再者因為預告片的關係,影片的前後關係只有部分是相關聯的,換場景可能會打壞時間前後關係???是嗎?
不曉得能否有專家大大們指點迷津?
回答列表
-
2020/03/04 下午 06:18杜靖愷贊同數:1不贊同數:0留言數:1
Hi,
我想模型的部分,只要你能定義出網路的 input 和 output 的話,一定是可以 train 的,問題只是準不準而已。
至於要不要用 RNN,端看你怎麼設計網路。
以你的例子,用 CNN 也可以,input shape 可以設計成 T x 3 的矩陣,where 3 指的是你的物件、背景和情景的類別,而 T 是你要取的時間長度,也就是你要拿影片預告的多少幀來預測;output shape 就看你要預測的電影類型有多少類咯~
不一定對,供你參考呀 :)
-
2020/03/05 上午 10:27Jeffrey贊同數:1不贊同數:0留言數:1
單純的針對預測出 1.物件2.背景/場景 這些In/Out 可以不用RNN,
若是推論3.情境( + 搭配字幕) 使用 RNN + self attention