數據會說謊?帶你識別9種常見的數據陷阱

0 評論 5460 瀏覽 31 收藏 13 分鐘

在產品的工作中經常需要用到數據和對數據進行分析,但在這個過程中其實隱藏著很多陷阱。數據來源、解讀人的觀點,都有可能造成很大的偏差。這篇文章,作者統計了9個常見且容易操作的數據陷阱,希望能對大家的數據分析工作有所幫助。

數據,正逐漸成為一種重要的生產資料。我們在進行產品開發,運營活動效果復盤,都需要數據輔助決策,而看起來人畜無害的客觀數據,卻在各種各樣的場合,以各種意想不到的情況欺騙大家的眼睛。

下面就讓我們一起看下在什么樣的場景下,會出現這種情況,我們又如何避免呢?

一、九種數據陷阱

01 數據可視化陷阱

先看下面兩組數據:

(1)

數據會說謊?帶你識別九種常見的數據陷阱

(2)

數據會說謊?帶你識別九種常見的數據陷阱

從直觀上來說,第二組數據的圖形顯示比起第一個圖的震撼要更大些,或者說,問題似乎‘更嚴重些’,因為兩個柱子的差距比第一個圖的差距要小。

而實際上,他們都在描述同一個事實:2023年上半年總營收同比2022年上半年減少200萬;

那么,問題出在哪里?

真相只有一個,就是縱坐標的刻度線,第一張圖縱坐標的起點是0,而第二張是3200w。

這里圖一通過調整坐標軸的刻度,改變數據的視覺效果,從而誤導觀眾對數據的理解。

02 相關性與因果

下圖是夏天西瓜的銷量與溺亡人數之間的相關關系圖,通過計算得知,兩者之間的相關系數達到了0.96(等于1為完全相關)。

有人得出結論:夏天游泳溺亡跟西瓜銷量有直接關系,應該禁止西瓜銷售。

數據會說謊?帶你識別九種常見的數據陷阱

有常識的人一眼就可以看出這是個笑話:夏天天氣熱,游泳人數多,所以溺亡人數變多,同時,夏天也會帶來西瓜銷量的提升。

這里為什么會鬧出這種令人啼笑皆非的笑話,主要是混淆了相關性和因果性。

相關性與因果關系的混淆:當兩個變量之間存在相關性時,不能簡單地得出其中一個變量是另一個變量的原因的結論。

同時相關性并不意味著因果關系,因為可能存在其他未知的變量或潛在的混淆因素。在分析數據時,我們需要進行更深入的研究和控制變量,以確定是否存在真正的因果關系。

03 放大有利數據

只看下圖,可以得出:我們的銷售額穩中有升,形式似乎一片大好:

數據會說謊?帶你識別九種常見的數據陷阱

但是如果我們將今年所有月份的數據取出,結果與我們之前的結論完全相反:銷售額隨著月份的變化一直在走低,業務部門得想想辦法了。

數據會說謊?帶你識別九種常見的數據陷阱

這里是因為一開始的圖只放了4-6月銷售額有上升的時間段,放大了有利數據,用短期波動代替長期效應。給我們造成了錯覺。

放大有利數據:在報告數據時,有可能選擇性地呈現某些結果,而忽略其他結果。這種情況下,數據的誤導性來自于信息的不完整性或不平衡性。為了避免選擇性報告的問題,我們應該全面、客觀地呈現數據,或者使用可信的數據來源。

其實在汽車行業就有這種慣例。汽車行業在公布數據時,如果增長的好,一般就說增長率;如果增長的不好,就會提排名;排名還不好的話,就開始說細分市場排名。而且還會把市場細分到幾乎只有這款車的范圍,這樣就可以說自己在細分市場排名前幾。

04 樣本偏差

大家應該都聽過一個段子:過年返鄉的列車上,記者向著車廂問到:買到票的朋友請把手舉起來!剎那間,車廂里的乘客都將手舉了起來,記者激動的播報著:從這里可以看出,群眾們乘車難的問題已得到解決,每個人都有火車票!

這里其實是犯了樣本偏差的錯誤,從一個有限的樣本中推斷總體特征時,樣本可能不具有代表性,導致對總體的錯誤認識。這種情況下,數據的陷阱來自于樣本的選擇或采集方法。解決這個問題的方法之一是使用隨機抽樣來確保樣本的代表性。

一個實際案例:

某公司要評估某款新產品在市場上的受歡迎程度。他們決定在購物中心進行了一次問卷調查,收集了500份調查問卷。

調查結果顯示有80%的受訪者對新產品表示喜歡和有意愿購買?;谶@個結果,市場調研公司得出結論認為新產品在市場上將受到廣泛歡迎,并投入大量資源進行市場推廣。

然而,結果顯示新產品的銷量遠不及預期。公司內進行復盤,發現問卷調查可能有問題。

因為,調查問卷僅發放給購物中心的訪客,未能涵蓋更廣泛的消費者群體,包括其他渠道或者不常去購物中心的消費者,他們的觀點可能不同。這可能導致市場調研公司過度估計了新產品的市場潛力。

為了避免樣本偏差導致結論出錯的情況發生,市場調研應該采用多種渠道和方法,以確保樣本具有代表性??梢栽谫徫镏行闹獾钠渌胤竭M行調查,或者使用在線調查等方式進行數據收集,以覆蓋更廣泛的消費者群體。這樣可以更全面地了解市場對新產品的態度和需求,并制定更準確的決策。

05 數據口徑問題

假設有兩個機構A和B,它們都在報告某個國家的失業率。

  • 機構A使用廣義定義上的失業率,包括所有正在尋找工作但沒有找到的人,并將其與勞動力總數相除。根據機構A的統計數據,失業率為5%。
  • 機構B使用狹義定義上的失業率,僅包括那些正在尋找工作但沒有找到的人,并將其與就業人口相除。根據機構B的統計數據,失業率為3%。

由于機構A和機構B使用了不同的統計口徑,導致了失業率的差異。機構A的統計方法更加寬泛,包括更多的人群,因此失業率較高。

而機構B的統計方法較為嚴格,只計算特定群體的失業率,因此失業率較低。

這種差異可能會對政策制定和經濟分析產生重要影響。例如,機構A可能會認為需要采取更多的就業刺激措施,而機構B可能會認為就業市場已經相對健康。

這個案例表明,即使數據都是正確的,但是因為數據統計口徑不同,進行解釋時,結論不一致的情況也會發生。

06 基數問題

(1)某件商品在50%折扣的基礎上再打20%折扣,我們容易以為會有70%的折扣。

實際上,折扣只有60%——因為后面20%的折扣實在50%即五折的基礎上折算的。

(2)A基金年化收益率對比去年增加了100%!容易讓人熱血沸騰,下一秒就想梭哈。

實際情況可能是:A基金去年的年化收益率只有1%,今年達到了2%,而同期的銀行利率可能高于這個數。

07 樣本分布是非正態分布

用平均數掩蓋分布。

美國前總統小布什在競選演講中曾經說到:我的2003年的減稅計劃讓4000多萬美國家庭平均少納稅1586美元,從純數字角度來看,沒有任何問題。但是這里有很強的誤導性。

因為財富的分配不服從正態分布,大部分家庭收入不高,減稅的額度非常有限,但小部分收入極高的家庭,減稅的額度甚至能達到幾十萬美元,從而拉高了平均數。

實際上,當年減稅的中位數是650美元,可以理解為有一半的家庭減稅額度都沒達到650美元。

08 數據樣本不足

“今年經濟學院的新來的研究生,有三分之一身高超過一米九,我們學院今年籃球賽奪冠有希望了?!?/p>

實際上,今年只錄取了三名研究生,其中一個人身高超過了一米九。

這里其實犯了數據樣本不足的問題,因為樣本不足,用百分比掩蓋規模。導致數據解讀出誤。

09 信息不完整

有這樣一則數據:過去幾十年,癌癥的死亡人數增多。

這個數據結論看起來非常嚇人。但實際上忽略了很多其他因素。如:

  1. 現在的人數遠遠超過以前;
  2. 由于醫學的進步,從前很多死因不明的案例,在現在,都被歸到了具體的癌癥類別;
  3. 因為現代社會的發展,各個易發病的年齡段人數在不斷增加;

這里是犯了信息不完整的錯誤,有時候,我們在分析或總結事物時可能會遺漏某些變化的原因。這可能是因為我們沒有獲得所有相關數據,或者我們只關注了部分信息而忽略了其他方面。

三、總結

以上,我們通過具體的案例總結了數據誤導性的九種常見的類型。分別是:數據可視化陷阱、相關性與因果、放大有利數據、樣本偏差、數據口徑問題、基數問題、樣本分布是非正態分布、數據樣本不足、信息不完整。

之后,再遇到別人用數據做出的論斷時,建議先對照著上述的九種場景,防止陷入數據陷阱。

最后,多說一句:數據不會說謊,但解讀數據的人會。

微信公眾號:董點數據,分享產品、運營、數據思維。

本文由 @董點數據 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!