list concat與unique() 和 nunique()問題

2020/03/17 下午 05:38

機器學習共學討論版

Ava Chen

觀看數：27

回答數：3

收藏數：4

Day9HW 問題：Q1

Q1: 有與沒list()的差別：

<圖一>特意轉成list type 的用處是什麼？因為以<圖二>和<圖三>試驗結果，有沒有加是相同的(但type不同)，還是只是寫程式的習慣不同呢？

<圖一>

<圖二>

<圖三>

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

Day12範例問題：Q2

Q2: train_X中df_test的用意：

目前理解是df 中有house_train 和 house_test 的 data，如<圖一>，並在後續空值補、標準化都是針對train做如<圖二>，那麼df_test是有什麼其他的功用嗎？

<圖一>

<圖二>

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

Day15HW 問題：Q3

Q3: unique() 和 nunique()的差別 :

<圖一>這裡試用nunique()取代unique() 來寫但不能work(Error如<圖二>)，在 if app_train[col].nunique() <= 2 裡再算一次unique() 和 nunique() 但結果卻不同，求解ＱＱ

<圖一>

<圖二>

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

Day16 HW問題：Q4, Q5

Q4: sorted() 和 np.sort()差別：

在排序年齡區間部分，請問作業做會選用np.sort()是因為速度比較快嗎？因為排出來的結果是一樣，只是type()不同，但都可work。

Ｑ5：px = age_data['YEARS_BINNED']與age_groups.index.astype(str)畫圖產生的差別：

Ｑ5-1：<圖二>黑色槓槓目前理解為誤差值，但換成<圖三>，px = age_groups.index.astype(str)，為什麼就不會去顯示誤差值呢？

Q5-2：<圖二>(A)是用分組好的區間（age_data['YEARS_BINNED']）與其對應 age_data[TARGET] 做圖，<圖三>(B)是分好組平均完 age_data['Target'] （age_groups = age_data.groupby('YEARS_BINNED').mean()這裡的問題是：為什麼<圖二>(A)出來也是平均值？

<圖一>

<圖二>

<圖三>

回答列表

2020/03/21 上午 02:14

張維元 (WeiYuan)

贊同數：1

不贊同數：0

留言數：0

嗨，下次建議把問題分成不同篇發問，盡量維持以問題為導向的討論，而不是以天為導向的討論。以下簡單回覆：

Q1: 有與沒list()的差別

=> 主要是形態差異，好不好看而已，具體用法上沒差。

Q2: train_X中df_test的用意

=> train_X 是我們真正收集到的資料（有正解的），但一般我們不會拿所有 train_X 下去做訓練，會保留一部分作為驗證用，這裡的 df_test 就是這個部分。

Q3: unique() 和 nunique()的差別 :

=> nunique() 會傳的是 series ，錯誤訊息是說無法放在 if 比較。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/03/21 上午 02:19

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：1

Q4: sorted() 和 np.sort()差別：

=> 定義的層級不同，sorted 是通用的、np.sort 是 np 專用的。

Ｑ5：px = age_data['YEARS_BINNED']與age_groups.index.astype(str)畫圖產生的差別

=> 那個稱為 errorbar，那個應該是用什麼表示什麼標準差之類的。第二種沒有是因為型態變了，原本是 series 改變成 index。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃
2020/03/22 上午 01:04

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：0

Q5-2：<圖二>(A)是用分組好的區間（age_data['YEARS_BINNED']）與其對應 age_data[TARGET] 做圖，<圖三>(B)是分好組平均完 age_data['Target'] （age_groups = age_data.groupby('YEARS_BINNED').mean()這裡的問題是：為什麼<圖二>(A)出來也是平均值？

=> 嗨，這應該不是圖的問題，你可以試著把兩張圖的 py ，「age_data['Target'] 」跟「age_groups['Target'] 」印出來看看。

如果這個回答對你有幫助請主動點選「有幫助」的按鈕，也可以追蹤我的GITHUB帳號。若還有問題的話，也歡迎繼續再追問或者把你理解的部分整理上來，我都會提供你 Review 和 Feedback 😃😃😃