logo
Loading...

物件偵測如何結合產生應用結果 - Cupoy

關於圖像/影像辨識的應用問題,想到一種應用方式,但不甚確定想與專家老師們請益一下這個想法的可行性.....

cvdl-1,cvdl-1-d39

物件偵測如何結合產生應用結果

2020/03/03 下午 08:28
電腦視覺深度學習討論版
Kent
觀看數:27
回答數:2
收藏數:0
cvdl-1
cvdl-1-d39

關於圖像/影像辨識的應用問題,想到一種應用方式,但不甚確定想與專家老師們請益一下這個想法的可行性...


首先,當我從電影預告中預測出 1.物件2.背景/場景3.情境(可能呼?)

上述的三項物件還包含了時間軸,而時間軸上還附加了字幕,

換言之從時間軸上可以得知四項物件,

那麼是否可以利用時間軸與四項物件預測電影的類別或標籤呢???

這裡面比較不確定的部分是是否需要用到RNN(因為時間軸)去推論電影的類型???

感覺上不用RNN也可以?但因為時間軸的關係又好像需要...

再者因為預告片的關係,影片的前後關係只有部分是相關聯的,換場景可能會打壞時間前後關係???是嗎?

不曉得能否有專家大大們指點迷津?

回答列表

  • 2020/03/04 下午 06:18
    杜靖愷
    贊同數:1
    不贊同數:0
    留言數:1

    Hi,

    我想模型的部分,只要你能定義出網路的 input 和 output 的話,一定是可以 train 的,問題只是準不準而已。

    至於要不要用 RNN,端看你怎麼設計網路。

    以你的例子,用 CNN 也可以,input shape 可以設計成 T x 3 的矩陣,where 3 指的是你的物件、背景和情景的類別,而 T 是你要取的時間長度,也就是你要拿影片預告的多少幀來預測;output shape 就看你要預測的電影類型有多少類咯~

    不一定對,供你參考呀 :)

  • 2020/03/05 上午 10:27
    Jeffrey
    贊同數:1
    不贊同數:0
    留言數:1

    單純的針對預測出 1.物件2.背景/場景 這些In/Out 可以不用RNN, 

    若是推論3.情境( + 搭配字幕) 使用 RNN + self attention