這次Nashik的房價分析有上傳至Kaggle,有興趣的朋友可以前往閱覽,RMarkdown PDF報告存放在Google雲端,程式碼則是存放於Github,照慣例會分享好用的函式語法,雖說基本的Packages與語法可能很多人都會完整的閱覽,但是實際在使用時像小雷就會忘東忘西,可以快速找到解決辦法是我認為很重要的事情
在研究案例的語法解析中不傾向寫的那麼繁雜,而是以基本的函數語法作為快速操作與使用時機的依據。
Nashik apartment price analyze文章 >> 請點這裡進入
小雷的Kaggle >> 請點這裡進入
小雷的Github >> 請點這裡進入
觀看完整報告,請至雲端下載PDF : 點我連結
---------------------------------------------做個分隔線------------------------------------------------
complete.cases() : 當數據中出現NA值的時候,如果確定NA值並不影響後續數據內容,可以透過移除或是像是近似值填補等方式進行處理,complete.case是將數據內容篩選出不是NA的值,而且使用上很簡單,沒有過多的參數。
所屬Package : stats
基礎語法 : complete.cases(x)
使用時機 : 當移除NA值不會影響分析結果時使用。
例子 :
house_df[complete.cases(house_df), ]
# 選擇1到5不是NA的值
house_df[complete.cases(house_df[1:5, ]), ]
# 選擇第10行不是NA的值
house_df[complete.caese(house_df[, 10]), ]
paste() : 連接字串成一個新的字串
所屬Package : base
基礎語法: 請見R
basic operation - paste | R基礎操作 - paste
gsub() : 這個函式作用是用”這個”去取代掉”那個”,在上一篇中我是用來移除數字與百分比符號的間隔。
所屬Package : base
基礎語法 : function (pattern, replacement, x,
ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
使用時機 : 原始數據有錯誤需要更正時。
例子 :
# 原始資料,數字與%符號有間隔存在
r$> house_df_v2$price_percentage[1:5]
[1] "1.75 %" "15.65 %" "2.92 %" "5.22 %" "8.93 %"
# 調整後的資料
r$> house_df_v2$price_percentage[1:5]
[1] "1.75%" "15.65%" "2.92%" "5.22%" "8.93%"
recode() : 重新編碼,依照所設定的方向進行分類,與dplyr中的recode同音同字不同使用方式,dplyr的recode簡單說是替換單一數值,但是car包的recode是允許操作數字範圍的,在上一篇的報告中,就是將範圍分類到我們想設定成的字符,而且可以調整輸出的型態與等級,我是覺得非常好用。
所屬Package : car
基礎語法 : function (var, recodes, as.factor,
as.numeric = TRUE, levels)
NULL
使用時機 : 數值分類
例子 :
level_df$sqft_level, "lo:710 = 'small'; 711:1600 = 'median'; 1601:2300 = 'large'; 2301:40000 = 'huge'",
# 結果輸出
r$> level_df$sqft_level[1:10]
[1] median median median median median median median median median median
Levels: small median large huge