小雷的 Programming & Analytic 日誌: R Packages Introduce dplyr

2022年3月22日星期二

數據在進行整頓的階段，都會用到一些R Packages來協助程序，dplyr包裡面使用各組動詞進行數據操作，以下為較常使用的基本函數 :

`mutate()` : 以現有的欄位加入新的欄位與變量值。

mutate文章連結 >> 請點我

`selete()` : 可以根據欄位名做選擇。

selete文章連結 >> 請點我

`filter() : 篩選個欄位的值，可以添加大於小於、邏輯判斷等。

filter文章連結 >> 請點我

`summarise()`、`summary()` : 統計欄位內的值作為單個輸出摘要。

summarise文章連結 >> 請點我

`arrange()` : 重新進行排序，可以加入`desc()`做順序調整。

arrange文章連結 >> 請點我

`group_by()` : 選擇欄位作為群組。

group_by文章連結 >> 請點我

`bind()` : 合併不同數據集。

bind文章連結 >> 請點我

`distinct()` : 類似base包的`unique()`，挑選出唯一的值。

distinct文章連結 >> 請點我

dplyr的函數可以與group_by以及%>%通道結合(除了bind())，結構上有一些相同的操作方式 :

1. 第一個參數為數據集

2. 第二個參數為變量的名稱(欄位名稱)，各個變量以” , ”作為分隔。

3. 操作完會生成一個新的數據frame，可以用新變量儲存，就不會更動到原始數據集。

小雷的 Programming & Analytic 日誌