請問train_num = train_Y.shape[0] 得到的值意義是什麼?

2020/03/10 下午 11:23

機器學習共學討論版

yicchen

觀看數：12

回答數：3

收藏數：0

ml100-4

您好：

(1)請問train_num = train_Y.shape[0] 得到的值意義是什麼?
前面已取出SalePrice這欄位的資料，train_Y.shape[0]是取得x的長度嗎? train_X 又為什麼要那樣取?

(2)最大最小化與標準化後的結果都不盡理想，是否因為資料內有極端值? 標準化對於極端值若能避免這樣狀況，那是哪裡有問題?

回答列表

2020/03/10 下午 11:59

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：1

嗨，你好

(1)請問train_num = train_Y.shape[0] 得到的值意義是什麼?

=> shape 是印出 train_Y 的 Row * Col 數，也就是有幾筆資料的意思
2020/03/17 上午 01:42

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：1

1.那train_X 又為什麼要那樣取?

=> 這邊是想要計算資料的筆數，也可以用 len(train_Y)。這是你的問題嗎，還是想問的是其他的部分？

2.最大最小化與標準化後的結果都跟解答不一樣，但我一樣是 df.fillna(df.mean()) 存在一個變數中，在標準化。不存回df中會有影響嗎?

=> 你的不存回是什麼意思？可以貼上你的程式碼來看看嗎？

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/03/26 上午 00:26

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：0

1.我想問為什麼不取所有資料? 選擇train_num這個數量的用意又是什麼?

=> 一般來說，我們會將收集到的資料一部分拿來訓練模型、另一部份用來檢驗這個模型好不好。這就是分成 train & test 的差異。

2. 我用 df_m2 = df.fillna(df.mean()) df_temp2 = MinMaxScaler().fit_transform(df_m2) 參考解答用df = df.fillna(df.mean()) df_temp = MinMaxScaler().fit_transform(df)

=> cross_val_score 這個方法本來就有隨機抽選的成分在其中。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃