原文標題:《Excel 里把人“逼瘋”的數據雜亂數據,原來 1 分鐘就能整理好!清洗》
鏘鏘!數據大家好哇~ 我是清洗最近在研究數據分析的衛星醬~
數據分析中有個很重要的預處理步驟,叫做「數據清洗」。數據
簡單來說就是清洗把數據中「臟臟的 」部分 —— 缺失的、重復的數據、錯誤的清洗等等,給它清除掉,數據剩下「干凈的清洗」數據。
光講概念也太難理解了,數據衛某今天就直接用實例,清洗給大家看看數據清洗,數據到底是清洗怎么個事兒~
1、缺失數據
如果某處缺了一兩個數據,數據最簡單的方法就是 —— 扔了它。
別笑!
這的確是正規的數據清洗手段,在表格不大、不完整數據較少的情況下,完全可以這樣做。
「比如 2002 年「產品 C」的產量缺失了,那就偷偷把 2002 年從統計表里刪掉,只分析后面的~」
但這樣可能將潛在信息刪除,也可能導致數據分析出現較大偏差。
所以,如果數據很多、空缺也多,刪除過多條目會使得結果產生較大偏差時,我們還是得把空缺補上。
? 空值變 0 值
【Ctrl+G】定位,【定位條件】,選擇【空值】,【確定】,最后輸入 0。
? 統計學方法
但很多時候不能這樣粗暴地填充。
實際應用常選擇統計學方法,比如平均值,來填充缺失的數據。
當然,根據數據實際類型,也可能使用中間值、最大值、最小值或者其他更復雜的函數值。
像這個預測函數,就怪好用的。
2、重復數據
至于重復數據,在之前的「數據核對」篇中已經講過了,這里就不再贅述。
點此回顧「數據核對」
很多時候,我們在基礎的 Excel 應用中就完成了「數據清洗」的步驟。
數據分析的門檻,真的沒我們想象的那么高~
3、錯誤數據
函數錯誤值,比如#DIV / 0!、#N / A! 之類,只要在公式外套上 IFERROR 就行:
另一種錯誤數據,就沒那么好對付了……
「比如等級只有「A / B / C」三種,有個單元格卻出現了「D」的;或者要求填寫「√」,偏偏有人寫「?」的……」
這種除了在一開始設置數據驗證,就只有用查找、計數、條件格式等偏門方法了
這種錯誤數據「D」,可以用【查找】或【篩選】直接定位它。
而「感覺上不對」的數據,就比較難找到了:
▲ 誤差過大,不是測量誤差可以解釋的
這時我們就只能因地制宜,想辦法定位它,例如用 IF 函數篩選大于 36.13 的數據。
找到之后按照「缺失數據」的辦法處理它就是了。
4、寫在最后
好啦,今天從數據類型的角度給大家簡單講了下數據清洗的做法~
小伙伴們還知道哪些屬于數據清洗的 Excel 操作呢?
本文來自微信公眾號:秋葉 Excel(ID:excel100),作者:衛星醬