上篇的Cyclistic分析報告中,用到了一些不錯的函數來解決問題,這篇照慣例分享當中好用的語法,希望有遇到相同的朋友可以參考,這篇目前沒有放上Kaggle,有些函數在VScode、RStudio可以用,放到Kaggle就不行了,沒錯,就是瘋狂出現ERROR,查了很多文章,也測試了很多方式,ERROR依然的故我啊😂,在還沒找到問題前,大概都先不放了,所有的分析報告都會放在小雷的雲端硬碟中,有興趣的朋友可以連結下載PDF檔案。
有些函數內可以加入參數作為設定,在研究案例的語法解析中不傾向寫的那麼繁雜,而是以基本的函數與法作為快速操作與使用時機的依據,相關參數內容就留到後續詳細的文章。
Data Analysis Cyclistic文章 >> 請點這裡進入
小雷的Kaggle >> 請點這裡進入
小雷的Github >> 請點這裡進入
觀看完整報告,請至雲端下載PDF : 點我連結
---------------------------------------------做個分隔線------------------------------------------------
rename() : 有時候數據資料的欄位命名實在是太長、太過無法理解時,就需要變更一下欄位的名稱,也有其他的函數可以替換,但如果只是要簡單的替換名稱,rename()是個不錯的選擇。
所屬Package :
dplyr
基礎語法 : rename(x,
newname = oldname, ..)
使用時機 : 單純要變更欄位名稱時使用。
其他多工的函數 : mutate()
例子 :
rename(q4_19, ride_id = trip_id)
dim() : 檢查數據資料時,應該常常會用像str()、head()檢查型態與值,想檢查整個數據框的大小時,這個函數就非常好用啦。
所屬Package :
base
基礎語法 : dim(x)
使用時機 : 檢查數據框的大小(包含col與row)
其他類似函數 : ncol()、nrow()
tail() : 通過head()檢查的是前六筆資料,tail()則是顯示後六筆資料。
所屬Package :
utils
基礎語法 : tail(x)
使用時機 : 搭配head()檢查數據集中的前後欄位值,屬性。
例子 :
tail(combine_datas_clearn) # 檢查後六筆
table() : 確認數據欄位的值數量時很好用,除了可以交叉因子進行分類之外,還會創建一個表格顯示各值的計數。
所屬Package :
base
基礎語法 : table(x$col)
使用時機 : 想交叉檢查欄位中各值的數量。
例子 :
902182 2973860
unique() : 數據集中常常會有一堆零散的資料,進行清理之後很適合用unique()函數進行值的檢查,檢查出現的唯一值。
所屬Package :
base
基礎語法 : unique(x)
使用時機 : 檢查唯一值使用
例子 :
[7] "Sunday"
recode() : 數據集中的某些值如果需要更改,又不想if..else的時候,recode就顯得很方便,可以直接修改對應的值,並且提供了numeric、factor、character的方式,也可以搭配mutate()。
所屬Package :
dplyr
基礎語法 : recode(x,
替代物..)
使用時機 : 需要變更欄位內的已知值
例子 :
"member" "休閒騎手"
沒有留言:
張貼留言