我在電商裡面是幫商業部門 (Commercial Team) 做資料分析 (我的工作可以稱為數據分析師/商業分析師),我的工作是追蹤各品類的業績成效、訂立相應的業績目標。在公司常常會有商業業務部門的同事跟我詢問基本的資料分析應該從何開始學起,還有 Excel/Google Sheet 的使用。因為公司的決策、簡報,都會需要數據的呈現輔助去驗證假設。
而我覺得,基本的資料分析其實沒有那麼難,我是文組生,也是在第一份工作的時候自學。我個人覺得,資料分析算是入門很快,而且是有花時間就可以有收穫的一個項目。
學習資料分析/數據分析的 3 大好處:
- 讓所有的決策更理性,且有數據做背書
- 老闆希望決定都能夠 data driven (根據數據來做決定),因此如果有能力處理跟解釋數據,就等於可以找方法替自己的決策背書
- 學習邏輯思維:
- 先思考如何對問題進行拆解、並且做假設
- 再蒐集數據、整理成對假設有意義的資料
- 轉職的跳板:未來的工作機會比比皆是
- 各行各業都需要懂分析跟懂資料的人,不論是 人資相關/業務/客戶經理/營運/行銷/產品經理/專案經理,各行業都有需要我們的地方
- Google 數據分析證照 推行之前,Google 就已經對就業市場做了觀察跟推測,未來會有更多相關的工作機會釋出
資料分析是一種硬實力
資料分析是一種職場硬實力,我相信在未來在履歷上就像英文能力一樣重要,而我希望把我手把手的經歷分享給大家,今天會用 9 個步驟,來入門一下資料分析所需要的技能,大家可以再依照自己的職業特性,選擇要精進哪一部分,之後也會針對我比較擅長的部分:Google Sheet/Excel/SQL 多做討論,分享一些真正在操作的時候會碰到的問題排除!
第一步:Table (資料表) – 裝載資料的容器
公司裡的資料庫裡面會有很多由工程師處理好的 table (資料表)
- 裡面存著不同目的下會需要取用的 table,不過資料表存取在哪邊可能會需要和公司的 BI 人員溝通,確定哪些資料存在哪些 table 裡面
- 以電商為例,我們會有以下幾種 table,記錄不同目的所思要的資料
- 記錄訂單的 table
- 記錄客人/店家基本資料的 table
- 記錄行銷活動的 table
- 記錄電商平台流量的 table
- 以電商為例,我們會有以下幾種 table,記錄不同目的所思要的資料
第二步:邏輯思維 – 資料分析前的前置作業
- 資料收集,去理解問題的本質
- 如果是業務相關的問題,你必須理解業務的流程、做過哪些行為、現有的計畫有哪些,才能夠從中推演假設
- 如果你是行銷相關的問題,你可能必須理解現在做過的行銷活動有哪些?廣告?活動?
- 把開放性的問題,利用金字塔原則/金字塔原理,一層一層向下條列化變成很多個假設
- 開放性問題:為什麼業績下滑?
- 第一層假設:平台大店家 (Short_Tail) 的業績下滑,導致整體業績下滑顯著?
- 第二層假設:大店家商品上架數減少?/大店家行銷活動折價券不夠力?
在做分析之前,我們需要先把問題拆解成很多個假設,這邊介紹一個很實用的方法:金字塔原則/金字塔理論
例如說:為什麼這個月業績下滑?
這個核心問題,我們應該如何拆解呢?可能是以下原因,這可能會需要你對業務有一定的了解,才有辦法推斷最有可能導致結果的假設。我們先做第一層假設:
- 平台大店家的業績下滑,導致整體業績下滑顯著?
接下來,我們可以再去抽絲剝繭,去推測大店家業績下滑的原因,第二層假設:
- 大店家商品上架數減少?是不是現在是淡季?
- 大店家行銷活檔期減少?或是行銷活動的折價券不夠力?或是主題對比以前成效差很多?
- 大店家沒有投入廣告預算?
金字塔原則/金字塔思維:他可以幫助你拆解問題、並把問題以結構化的方式寫下來,再向下做資料搜集、資料整體跟資料分析
第三步:如何挑選數據 – Choose Metrics & Column Definition
數據挑選的三個面向
- 時間維度
- 要追蹤的事件 id (店家/活動/客人/網頁…)
- 這個事件帶來的影響 (流量/業績/頻率…)
當我們抽絲剝繭,把開放性問題變成好多個假設性的問題後,就可以開始準備選擇要從 table 裡取出哪些資料?以剛剛的範例往下舉例的話:
- 平台大店家商品上架數是不是減少了?
- 我需要準備這些資料:平台大店家過去三個月來的商品上架數
- 平台大店家的行銷活動折價券不夠力?
- 我需要準備這些資料:平台大店家過去 10 檔活動所使用的折價券折數、兌換率
當我們把需要準備的資料都想清楚之後,就可以條列化取用資料時需要注意的條件:
- 平台大店家商品上架數是不是減少了?
- 平台大店家 shopid 條件:平台前 100 名
- 時間區間條件: 以週累計,區間為過去三個月來的資料
- 每星期有效的商品數條件:尚有庫存可供購買的商品數
條列式所需要的資料欄位,可以讓你在使用 SQL 取得資料時不會忘記任何一個條件應該要做的處理,這邊提供一個我們資料處理常用的 Requirements template,大家可以依照這個格式去挑選跟詳述你需要的資料:
依據子假設去寫 Requirements, 應該包含以下四個項目:Level(以何種維度呈現資料), Branch(子假設中需要分析的項目), Details(欄位), Definition(欄位定義)
第四步:資料分析工具 SQL (和資料庫溝通的語言)
必學的五個語法
- Select – 選取欄位
- from – 從哪個 table
- Where (+And) – 條件 (指定的日期區間?指定的客戶或是店家?)
- Join – Join/Left join
- Group by
SQL 幫助我們從資料庫裡面把大 table 裡面我需要的資料、欄位,取出變成小 張的 table,而初步清理過的資料,我們可以再放到其他工具 (Excel/Google Sheet/或是想要下載免費版 Tableau) 裡面分析,或是直接在 SQL 裡面做完資料分析也是常見的。
進階講解
- 選擇資料
- select
- from
- 篩選你要的條件- 日期區間?特定的訂單 id?
- where
- And (好多個條件時,運用 And 連接)
- 如果我們的資料來源來自多個 table
- 以上述的案例繼續説明,我們想知道平台大店家商品上架數是不是減少了?
- 平台大店家 shopid、時間維度、上架商品數
- 我可能需要用 SQL left join 兩張資料庫裡的 table
- 上架品 table
- 店家資料 table
- 這部分取決於每家公司的資料庫中 是如何存取每種數據?>> 你可能會需要公司的 BI (Business Intelligence 部門協助你探索公司的資料庫)
- 以上述的案例繼續説明,我們想知道平台大店家商品上架數是不是減少了?
- 日期處理
- date_trunc
- daily 轉 monthly >> 我們可能會想要把資料庫裡以 1995-01-05 資料格式轉成 1995-01-01 月份形式
- demo: date_trunc(‘month’, ‘1995-01-05’)
- date_add
- Where 篩選日期時,可能會想要篩選近三個月的資料,那就可以用 date_add 找到 距離現在的日期前三個月的日期
- demo: date_add(‘month’, -3, current_date)
- date_trunc
第五步:用 Excel/Google Sheet 做數據分析
- 篩選/排序功能
- 基礎篇- 函數/公式
- 敘述性統計
- 純統計:count/average/sum/max/min/median/rank
- 邏輯+統計 (依照我想要的條件做統計):countifs/averageifs/sumifs
- 日期函數
- day/week/month/year
- 日期處理 (把日期處理成當月第一天):eomonth
- 查找函數
- vlookup/hlookup/lookup 推薦使用 match+index,就不用考慮向左/向右查詢
- 邏輯函數
- if/and/or/iferror
- 引用資料函數 (僅有 google sheet 支援)
- 本表內引用資料:arrayformula
- 跨表引用資料:importrange
- 敘述性統計
- 樞紐分析表/資料透視表
我會更推薦 Google Sheet 而不是 Excel 的四個原因:
- 只要有 Google 帳號就可以用,不用煩惱要下載 Windows or 還要買 360
- 線上存取,在咖啡廳也能開你的資料
- 有 Excel 沒有的公式 (countunique/arrayformula/query…)
- 外掛功能:yet merge email (把寄件資訊整理成 raw, 外掛就能幫你寄信)
👉進階文章推薦 Google Sheet 超強 ƒ 推薦
第六步:資料視覺化
資料視覺化的重點在於,把數據處理後的重點在圖表裡面 highlight 出來,而選擇使用圖表繪製或是把資料整理成可以追蹤 kpi 的 dashboard 或是 table 都算是資料視覺化的一部分。
Excel/Google Sheet 裡面可以選擇的幾種圖形:
- 折線圖/雙軸折線圖
- 雙軸折線圖:可以設左軸訂單數、右軸 GMV,一次比較兩個指標,算是最常用的圖表
- 柱狀圖/長條圖
- 圓餅圖
- 新舊客比例常用圓餅圖表示
- 散佈圖
- 地圖
- 有些公司會使用 BI Tools 像 Power BI、Tableau、Looker 這種視覺化軟體:可以把不同的指標畫成不同的圖表,同時放在一份儀表版裡面追蹤
常見的 BI tools – Power BI, Tableau, Google Studio, Looker… 提供免費版的有 Tableau, Google Studio,有興趣可以匯入自己的數據庫進去試著做資料視覺化 (版型由 Power BI 提供)
除了用視覺化的圖形呈現外,我們比較常用的是 整理過後的表格去追蹤 kpi,好處是可以看到很細的資訊,如果是細節導向的你,可能會更適合將數據整理成視覺化的表格,同時達到方便閱覽、專注細節!
把拿到的資料整理成可視化表格,更細節導向的去追蹤細節,這是我們在電商常用的方法
第七步:數據分析方法論 – 統計學
- 資料集中度
- 平均 (excel: average())
- 中位數 (excel: median())
- 資料邊界
- 最大值 (excel: max())
- 最小值 (excel: min())
- 資料變異度 – 資料有沒有集中在特定區間?
- 四分位數
- 十分位數 (excel: PERCENTILE())
- 標準差 (excel: STDEV())
- 資料是否為 常態分佈?高峰位置在哪就是大部分人集中的區域,可以做追蹤指標
- 資料相關性
- 想分析的兩個指標之間 X, Y 是否有相關性
- X 可以是平台搜尋量,Y 可以是平台業績
- (excel: =CORREL())
第八步:數據分析方法 – 模型參考
大部分的問題應該可以用敘述性統計來做結論,因為並不是每個問題我們都需要一定要用模型來分析:
- 如果要對客戶做分群、提供不一樣的優惠碼
- RFM 模型 (最近一次的消費、消費頻率、消費平均金額 做分數評比 0-5 分)
- 網站導流分析、活動成效分析
- AARRR 漏斗理論
- 業績來源分析
- 8/2法則 (八成的業績是從某些大客戶身上來的,我們應該重視那八成的客戶,並且想辦法留住他們)
- 驗證多個指標對業績的影響幅度
- 多變量線性回歸
第九步:數據分析 簡報 – 分析結果和 Action Plan
簡報是商業/資料分析中,不可或缺的一部分,再多的分析若不能夠提供結論、Action Plan,或是帶出更多假設、討論等等,那這個分析就只能稱作觀察,不能稱作有收穫。
這邊簡述一下簡報中應該要包含的內容:
- 描述問題的假設
- 為什麼平台近一個月的業績會下滑?推測:平台大店家業績下滑
- (假設 1): 平台大店家的上架商品數減少?
- 是不是被競品平台搶走?
- (假設 2): 平台大店家的行銷活動折價券不夠力?
- 行銷資源分配應該考慮到花出去的錢賺回來多少?
- (假設 1): 平台大店家的上架商品數減少?
- 為什麼平台近一個月的業績會下滑?推測:平台大店家業績下滑
- 資料視覺化
- 可以用整理好的表格,讓聽眾看到資料的細節
- 再用資料視覺化後的圖表,輔助聽眾很快地抓住某個指標中你想強調的重點
- 強調資料和假設之間的關聯性,用有顏色的框框圈起
- 如果有些假設有誤或是不重要,可以快速帶過
- Action Plan
- 強調哪個假設猜對,為此再做更多質化分析:
- 平台確實因為大店家上架商品數下降,導致業績下滑,影響整個平台的業績
- Action Plan: 根據我們調查,大店家 A 確實在競品平台上談了獨家商品,違背下約,我們會請法務做後續處理
- Action Plan: 與大店家 A 相似的店家還未和任何平台合作,已經請業務聯繫
- 平台確實因為大店家上架商品數下降,導致業績下滑,影響整個平台的業績
- 強調哪個假設猜對,為此再做更多質化分析:
一開始寫簡報可能會思緒混亂,不知道哪張圖要放哪?簡報順序應該如何擺?前因後果要怎麼變成故事?以下分享我自己整理簡報的技巧:
- 動手寫下每一頁的標題、內容
- 標題下再把每一頁應該要涵蓋的範圍跟內容寫下,尋找對應的圖片跟資料,先貼上,最後再刪刪減減,留下重要的圖和內容
# 檢查你的簡報:
- 描述問題的假設:分析的假設應該在簡報開頭就提出
- 整理過後的資料表格 + 資料視覺化的圖表輔助強調重點
- Action Plan 中可能要做更多質化分析,並且提出可以執行的下一步
結論
畢業之後,接觸了三年的資料分析,我覺得對我在做決策的時候很有幫助、在回答我心裡的疑問、老闆疑問的時候也很有幫助
- 因為擁有處理資料的能力就等同於擁有自己找答案的能力 (就像 google 一樣)
- 資料能夠替我的話背書
接下來我也會一直分享更多我的學習歷程,希望可以讓更多人能夠接觸到這份我覺得很棒的能力!
學習資源推薦
- 如果你也想 轉職數據分析師或是相關職位,我透過 STEP 數據分析師轉職培訓班這套完整的系統,幫助零經驗跟無科系背景的大家,從沒有經驗到了解工作的需求、會使用數據工具應用、會使用思維架構分析這些狀況 (顧客分析、營運分析、人力資源分析、財務分析、商業分析)、打造符合你背景的作品集、並且有效率的寫履歷及投履歷,拿到數據相關工作機會,之後朝年薪百萬的資深數據職位前進
- 其他資源推薦:SQL for Data Science
- 推薦原因:大概花不到一週的時間就可以學完,裡面教到的所有語言都是我現在實務上會碰到的,可能因為他是專為資料科學前置所設計的,內容不多不少剛剛好,練習題很有臨場感,課程為全英文授課,講師語速適中/簡報重點搭配,只需要英文中級程度就可以挑戰,而且上課完全免費!
- 其他資源推薦:學習計劃|帶你10週入門資料分析
- 這個部落格適合初學到中高階,頻道介紹很多資料分析的觀念和實務分享
- 其他資源推薦:Google 官方認證的數據分析師證照
- 推薦原因:Google 以找工作為目標設計的證照班,教的工具很多,如果想看詳細的課程介紹,可以查看:[數據分析#12] Google 認證的資料分析師證照課程有幫助嗎? 誰最適合上?Google Data Analytics Professional Certificate