教材是否會頻繁更新?是否會主動通知學員教材更新資訊?
1. 發現教材(pdf)檔有更新過,Day1~Day9, Day11的教材,都與當初下載的內容有差異,都是多出了幾頁。(Day10, Day12, Day13沒變,Day14之後的我還沒下載,不知道差異。)想請教的是,教材的更新是頻繁的嗎?是會通知的嗎?我應該何時去下載教材,才能下載到最新版本的?我以為釋出題目時的教材就是固定的了。
2. Day10的作業與答案中,處理了'DAYS_EMPLOYED' == 365243的資料為np.nan、處理了'DAYS_BIRTH'要掛上abs。想請問我們如何得知,要對這兩個欄位做這樣的處理?前面並沒有任何查找異常值的過程,畢竟欄位共有122個,該怎麼知道我必須針對某個特定欄位去做某個特定處理,以因應後面想做的事呢?
3. 針對僅兩個值的欄位,做0,1的轉換。我該如何得知誰被轉成了0,誰被轉成了1呢?教材並未提到相關內容,是因為0,1的原值是誰,對於corr而言並不重要嗎?
4. Day10的教材(pdf)有提到y軸轉換(log-scale),但HW與Answer皆未提及。類似這種教材內容範圍較多,作業內容範圍較少的狀況,在前面也有出現過。請問這是本來設計HW的初衷嗎?(從教材中選一些範圍當HW,而不是將全部教材只要適合HW的都列在HW裡。)
如果是的話,那表示教材檔其實才是全部課程範圍的狀況下,第1點就變得非常重要了。
回答列表
-
2019/05/02 下午 00:54張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
2. Day10的作業與答案中,處理了'DAYS_EMPLOYED' == 365243的資料為np.nan、處理了'DAYS_BIRTH'要掛上abs。想請問我們如何得知,要對這兩個欄位做這樣的處理?前面並沒有任何查找異常值的過程,畢竟欄位共有122個,該怎麼知道我必須針對某個特定欄位去做某個特定處理,以因應後面想做的事呢?
=> 建議一開始還是要看一下資料大致的樣子:「有哪些欄位」、「每個欄位代表意義是什麼?」「總共的資料量啊」、「離散資料的欄位分佈啊」、「數值資料的最大最小與範圍」,我們會把這樣的過程稱為資料探索(EDA)。其實課程前面幾天都在做這件事,帶大家看資料,做一些簡單的處理,D5、D6 就是教大家看異常值跟處理!
當欄位很多的時候有沒有什麼特別的處理方法:先把該做能做的做一做,細節的部份可以之後再回來調。資料分析是一個重複迭代的過程,不一定要追求一開始就一步到位。
-
2019/05/02 下午 00:56張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
3. 針對僅兩個值的欄位,做0,1的轉換。我該如何得知誰被轉成了0,誰被轉成了1呢?教材並未提到相關內容,是因為0,1的原值是誰,對於corr而言並不重要嗎?
=> 在數學計算上沒差,不過如果有可讀性的話,還是會建議轉成有意義的值。例如:True => 1、False => 0。
另外問一下,這段教材是哪裡?
-
2019/05/02 下午 00:59張維元 (WeiYuan)贊同數:0不贊同數:0留言數:1
4. Day10的教材(pdf)有提到y軸轉換(log-scale),但HW與Answer皆未提及。類似這種教材內容範圍較多,作業內容範圍較少的狀況,在前面也有出現過。請問這是本來設計HW的初衷嗎?(從教材中選一些範圍當HW,而不是將全部教材只要適合HW的都列在HW裡。)
=> HW 的設計上不一定會涵蓋到所有投影片的內容,投影片也很難涵蓋到所有該主題的內容。我會把你的問題反映給主辦單位,看怎麼樣處理比較好~