搜尋感興趣的網誌

所有文章連結

2022年6月17日 星期五

納希克房價分析 | Nashik Apartment Price Analyze – 語法解析(上)

 


這次Nashik的房價分析有上傳至Kaggle,有興趣的朋友可以前往閱覽,RMarkdown PDF報告存放在Google雲端,程式碼則是存放於Github,照慣例會分享好用的函式語法,雖說基本的Packages與語法可能很多人都會完整的閱覽,但是實際在使用時像小雷就會忘東忘西,可以快速找到解決辦法是我認為很重要的事情

 

在研究案例的語法解析中不傾向寫的那麼繁雜,而是以基本的函數語法作為快速操作與使用時機的依據。

 

Nashik apartment price analyze文章 >> 請點這裡進入

小雷的Kaggle >> 請點這裡進入

小雷的Github >> 請點這裡進入

觀看完整報告,請至雲端下載PDF : 點我連結

---------------------------------------------做個分隔線------------------------------------------------


complete.cases() : 當數據中出現NA值的時候,如果確定NA值並不影響後續數據內容,可以透過移除或是像是近似值填補等方式進行處理,complete.case是將數據內容篩選出不是NA的值,而且使用上很簡單,沒有過多的參數。

所屬Package : stats

基礎語法 : complete.cases(x)

使用時機 : 當移除NA值不會影響分析結果時使用。

例子 :

# 選擇出所有不是NA的值
house_df[complete.cases(house_df), ]
 
# 選擇15不是NA的值
house_df[complete.cases(house_df[1:5, ]), ]
 
# 選擇第10行不是NA的值
house_df[complete.caese(house_df[, 10]), ]

 

 

paste() : 連接字串成一個新的字串

所屬Package : base

基礎語法: 請見R basic operation - paste | R基礎操作 - paste

 

 

gsub() : 這個函式作用是用這個去取代掉那個,在上一篇中我是用來移除數字與百分比符號的間隔。

所屬Package : base

基礎語法 : function (pattern, replacement, x, ignore.case = FALSE, perl = FALSE,

    fixed = FALSE, useBytes = FALSE)

使用時機 : 原始數據有錯誤需要更正時。

例子 :

house_df_v2$price_percentage[1:5]
 
# 原始資料,數字與%符號有間隔存在
r$> house_df_v2$price_percentage[1:5]
[1] "1.75 %"  "15.65 %" "2.92 %"  "5.22 %"  "8.93 %"
 
# 調整後的資料
r$> house_df_v2$price_percentage[1:5]
[1] "1.75%"  "15.65%" "2.92%"  "5.22%"  "8.93%"

 

 

recode() : 重新編碼,依照所設定的方向進行分類,與dplyr中的recode同音同字不同使用方式,dplyrrecode簡單說是替換單一數值,但是car包的recode是允許操作數字範圍的,在上一篇的報告中,就是將範圍分類到我們想設定成的字符,而且可以調整輸出的型態與等級,我是覺得非常好用。

所屬Package : car

基礎語法 : function (var, recodes, as.factor, as.numeric = TRUE, levels)

NULL

使用時機 : 數值分類

例子 :

level_df$sqft_level <- recode( # car package
    level_df$sqft_level, "lo:710 = 'small'; 711:1600 = 'median'; 1601:2300 = 'large'; 2301:40000 = 'huge'",
    as.factor = TRUE,
    levels = c("small", "median", "large", "huge")
)
 
# 結果輸出
r$> level_df$sqft_level[1:10]
 [1] median median median median median median median median median median
Levels: small median large huge

沒有留言:

張貼留言

其他文章

看看精選文章

納希克房價分析 | Nashik Apartment Price Analyze – 語法解析(上)

  這次 Nashik 的房價分析有上傳至 Kaggle ,有興趣的朋友可以前往閱覽, RMarkdown PDF 報告存放在 Google 雲端,程式碼則是存放於 Github ,照慣例會分享好用的函式語法,雖說基本的 Packages 與語法可能很多人都會完整的閱覽,但是實際...