logo
Loading...

嗨~各位好, 關於特徵工程感到許多疑惑想請教 - Cupoy

嗨~各位好,關於特徵工程有一點疑惑想請教假設我有一個N筆M維的data set要預測y1, y2, ...

ml100,特徵工程

嗨~各位好, 關於特徵工程感到許多疑惑想請教

2020/08/02 下午 09:19
機器學習共學討論版
Gaprs
觀看數:25
回答數:1
收藏數:4
ml100
特徵工程

嗨~各位好,


關於特徵工程有一點疑惑想請教


假設我有一個N筆M維的data set要預測y1, y2, y3,且這N筆data中前(1/3)維的data僅與y1有關,後(2/3)維的data僅與y2, y3有關。(Y的data set有三個欄位y1, y2, y3)


我的問題是,當我在做特徵工程時,

(1)是否代表著這前後維的data應該是獨立的呢?

(2)並且我要建模時,正常的作法是根據這前1/3與後2/3維的data拆成兩個train_x訓練兩個模型各別進行預測

[y1] and [y2, y3]嗎?當我要上傳Kaggle預測結果時,我再將這兩個模型分別預測的結果合併再上傳,這樣的作法是正確的嗎? 

(3)假如同上述的問題,但與[y1]及[y2,y3]有關的data彼此有相交但不完全相同時,這些data是否應該視為相依呢?

(例如N筆data有100個feature,第1~60個feature僅與y1有關,第20~100個feature僅與y2,y3有關)

(4)假如同上述問題,但feature彼此無關但y1,y2,y3彼此有關係時,應該視為相依嗎?

回答列表

  • 2020/08/04 下午 01:28
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:1

    嗨,以下簡單回覆你的問題:


    (1)是否代表著這前後維的data應該是獨立的呢?


    => 理論上是需要,尤其是基於權重的模型的話。


    (2)並且我要建模時,正常的作法是根據這前1/3與後2/3維的data拆成兩個train_x訓練兩個模型各別進行預測 [y1] and [y2, y3]嗎?當我要上傳Kaggle預測結果時,我再將這兩個模型分別預測的結果合併再上傳,這樣的作法是正確的嗎? 


    => 是,這個就是 Multi-Label 的題目


    (3)假如同上述的問題,但與[y1]及[y2,y3]有關的data彼此有相交但不完全相同時,這些data是否應該視為相依呢?(例如N筆data有100個feature,第1~60個feature僅與y1有關,第20~100個feature僅與y2,y3有關)


    => 是啊,但你是當成兩個模型使用不是嗎?


    (4)假如同上述問題,但feature彼此無關但y1,y2,y3彼此有關係時,應該視為相依嗎?


    => 不用,我們是把標籤分開看不是嗎?




    如果這個回答對你有幫助請主動點選「有幫助」或「最佳解答」的按鈕,也可以追蹤我的GITHUB 帳號。若還有問題的話,也歡迎再開一個新的問題繼續發問,或者把你理解的部分整理上來,我都會提供你 Review 和 Feedback 😃😃😃另外我目前有舉辦一個社群活動:學員限定!CUPOY 馬拉松線上小聚 👨🏻‍💻👨🏻‍💻,歡迎一起來玩玩!