Character字符在數據操作上並不是最主要的處理項目,在分析的類別上幾乎都是以數字、統計為優先處理的,關於字符通常也都轉換成日期、月份、星期等等。
不過字符的使用也並不是毫無用處,畢竟文字總是比數字來的直觀,理解的速度也是比數字來的快(這部分數字好的大大有可能會不認同),有時數字轉換成字符也比好進行統計或彙整(例如id integer轉 character,進行數據集堆疊與統計時才較不會出錯),所以也還是把處理字符的包做個介紹。
所有stringr內的函數開頭是固定的,都是” str_ ”,並且支援正則表達式,很清楚也非常快速理解這個函數是屬於哪個包的,以下為八個較常用到的函數 :
` str_detect ()` : TRUE、FALSE是否匹配。
str_detect 文章 >> 請點我
`str_count()` : 數量計算。
str_detect 文章 >> 請點我
` str_subset ()` : 取出匹配的文字組合。
str_subset 文章 >> 請點我
` str_locate ()`: 找出設定文字的位置。
str_locate 文章 >> 請點我
` str_extract ()` : 提取出匹配的文本(單一文字)。
str_extract 文章 >> 請點我
` str_match ()` : 取出部分匹配文字
str_match 文章 >> 請點我
` str_replace ()` : 替換文字。
str_replace 文章 >> 請點我
` str_split ()` : 文字拆解。
str_split 文章 >> 請點我
stringr的函數結構上有一些相同的操作方式 :
1. 第一個參數為數據集
2.
第二個參數為需要修改的字符向量。
3. 支援pipes通道。
沒有留言:
張貼留言