數據在進行整頓的階段,都會用到一些R Packages來協助程序,dplyr包裡面使用各組動詞進行數據操作,以下為較常使用的基本函數 :
`mutate()` : 以現有的欄位加入新的欄位與變量值。
mutate文章連結 >> 請點我
`selete()` : 可以根據欄位名做選擇。
selete文章連結 >> 請點我
`filter() : 篩選個欄位的值,可以添加大於小於、邏輯判斷等。
filter文章連結 >> 請點我
`summarise()`、`summary()`
: 統計欄位內的值作為單個輸出摘要。
summarise文章連結 >> 請點我
`arrange()` : 重新進行排序,可以加入`desc()`做順序調整。
arrange文章連結 >> 請點我
`group_by()` : 選擇欄位作為群組。
group_by文章連結 >> 請點我
`bind()` : 合併不同數據集。
bind文章連結 >> 請點我
`distinct()` : 類似base包的`unique()`,挑選出唯一的值。
distinct文章連結 >> 請點我
dplyr的函數可以與group_by以及%>%通道結合(除了bind()),結構上有一些相同的操作方式 :
1.
第一個參數為數據集
2.
第二個參數為變量的名稱(欄位名稱),各個變量以” , ”作為分隔。
3.
操作完會生成一個新的數據frame,可以用新變量儲存,就不會更動到原始數據集。
沒有留言:
張貼留言