วันพุธ, กรกฎาคม 14, 2564

"สถิติไม่เคยโกหก" จริงหรือ ? รวมวิธีตอแหลด้วยสถิติ ขั้นพื้นฐาน



คณิตศาสตร์อย่างที่ควรจะเป็น
July 10 at 3:15 AM ·

มีคำกล่าวที่ว่า "สถิติไม่เคยโกหก" แต่ความจริงแล้วมีคนมากมายใช้สถิตินี่แหละมาโกหกคนอื่น
ในโพสท์นี้ผมรวบรวมวิธีโกหกคนง่าย ๆ ด้วยสถิติ ไม่ได้จะให้เอาไปใช้ที่ไหน แต่ควรเรียนรู้กันไว้ จะได้ไม่ตกเป็นเหยื่อกันนะครับ



คณิตศาสตร์อย่างที่ควรจะเป็น
July 10 at 3:15 AM ·

ค่าเฉลี่ยหรือ mean เป็นค่าที่นิยมที่สุดที่ใช้ในการสรุปข้อมูล แต่การสรุปข้อมูลทั้งชุดออกมาเป็นเลขแค่ตัวเดียวนั่นแหละคือจุดอ่อนของมัน

เช่นในในประเทศที่มีความเหลื่อมล้ำสูง คนส่วนใหญ่เป็นคนยากจน และมีเพียงคนกลุ่มเล็ก ๆ เท่านั้นที่มีรายได้สูงโดด เมื่อคำนวณค่าเฉลี่ยออกมา ค่าสูงโดดเหล่านั้นก็จะดึงให้ค่าเฉลี่ยสูงขึ้นมา จนทำให้รู้สึกว่าคนในประเทศนี้มีรายได้ปานกลาง ทั้งที่ความจริงไม่ใช่เลย

ดังนั้นถ้ามีใครมาบอกว่าคนในประเทศนี้ไม่ได้จนซะหน่อย แล้วเอาค่าเฉลี่ยรายได้มาให้ดู ก็อย่าเพิ่งรีบเชื่อเขานะครับ

http://www.mbcdp.ca/.../median-vs-average-household...



คณิตศาสตร์อย่างที่ควรจะเป็น
July 10 at 3:15 AM ·

สเกลของแกน Y หรือแกนแนวตั้งนั้นสำคัญมาก เพราะถ้าเราดูกราฟทางซ้ายจะรู้สึกว่าอัตราภาษีมีการเพิ่มขึ้นอย่างก้าวกระโดดมาก ๆ แต่ถ้าดูค่าบนแกนดี ๆ จะเห็นว่ามันเพิ่มจาก 3.141 ไปเป็น 3.152 เท่านั้น

แต่ถ้าเราใช้สเกลแกน Y อย่างถูกต้องโดยให้เริ่มจาก 0 เราจะเห็นความจริงว่ามันเพิ่มขึ้นแค่นิดเดียวเอง

ดังนั้นถ้ามีใครสักคนมาบอกว่าค่าอะไรสักอย่างมันเพิ่มขึ้นมาก ๆ ด้วยการเอากราฟแบบนี้มาให้ดู ก็อย่าลืมสังเกตค่าบนแกน Y ให้ดีด้วยนะครับ

https://venngage.com/blog/misleading-graphs/



คณิตศาสตร์อย่างที่ควรจะเป็น
July 10 at 3:15 AM ·

การที่แนวโน้มของค่าอะไรสักอย่างเป็นไปในทางเดียวกัน ไม่ได้แปลว่าเป็นเป็นเหตุหรือผลของกันและกันเสมอไป อย่างในรูปนี้ จะเห็นว่าอัตราการหย่าร้างในรัฐเมน กับปริมาณการบริโภคมาการีนต่อหัวนั้นมีแนวโน้มเดียวกันเป๊ะเลย เราจึงสรุปได้ว่าอัตราการหย่าร้างนั้นส่งผลต่อปริมาณการบริโภคมาการีนอย่างนั้นหรือ

คำตอบก็คือไม่ใช่ โอเคมันอาจจะมีปัจจัยบางอย่างที่อยู่เบื้องหลังร่วมกันของสองสิ่งนี้หรืออาจจะไม่มีก็ได้ แต่การเห็นแนวโน้มของอะไรเป็นไปในทางเดียวกันแค่นี้นั้นไม่สามารถสรุปได้ว่ามีอะไรสักอย่างเป็นเหตุและอะไรเป็นผลนะครับ



คณิตศาสตร์อย่างที่ควรจะเป็น
July 10 at 3:15 AM ·

เป้าหมายของ Data Visualization คือการแปลงข้อมูลออกมาเป็นภาพเพื่อให้เข้าใจได้ง่าย แต่หลายครั้งมันก็กลายเป็นการชี้นำให้เข้าใจผิด

อย่างในรูปซ้าย จะเห็นว่าค่าในแต่ละแท่งนั้นมีการเพิ่มขึ้นด้วยอัตราคงที่ หรือที่เรียกว่า linear growth แต่ลูกศรสีเหลืองที่วางอยู่ตรงนั้นกลับทำเป็นแบบ exponential growth ซึ่งถ้าใครไม่ดูข้อมูลดี ๆ ก็จะหลงรู้สึกไปตามลูกศร

หรืออย่างรูปทางขวา การเลือกสีฟ้าซึ่งดูสงบ ปลอดภัย ก็สามารถลดโทนความรุนแรงของข้อมูลที่จะสื่อได้

ดังนั้นเวลาอ่านอะไร รู้สึกไปตามข้อมูลนะครับ อย่ารู้สึกไปตามกราฟฟิก

https://gizmodo.com/how-to-lie-with-data-visualization...



คณิตศาสตร์อย่างที่ควรจะเป็น
July 10 at 3:15 AM ·

ข้อมูลที่ไม่ครบก็ทำให้เกิดความเข้าใจที่คาดเคลื่อนได้ อย่างในกราฟด้านบนเป็นจำนวนผู้ติดเชื้อโควิดใหม่ในแต่ละวันซึ่งมักจะถูกนำมาพูดถึงในสื่อ

ถ้ามองแค่กราฟนั้นจะเห็นว่าใน UK มียอดคนติดต่อวันเยอะกว่าไทยเยอะเลย สถานการณ์โควิดในประเทศเขาต้องแย่กว่าบ้านเราแน่ ๆ

แต่พอมาดูกราฟล่างซึ่งไม่ค่อยได้เห็นนักในสื่อจะเห็นว่า จำนวนที่ตรวจของบ้านเขาเยอะกว่าเยอะแบบเยอะมาก ๆ ดังนั้น การที่เขาเจอคนติดเยอะนั้นจึงไม่แปลกเพราะเขาตรวจเยอะ ในขณะที่เราตรวจได้เท่านี้ก็เลยมีคนติดเท่านี้นั้นอาจจะน่ากลัวกว่าก็ได้

https://ourworldindata.org/covid-cases



คณิตศาสตร์อย่างที่ควรจะเป็น
July 10 at 3:15 AM ·

แบบสอบถามที่ไม่ดีนั้นก็นำมาสู่ข้อสรุปที่ผิดเพี้ยนได้ กรณีหนึ่งที่น่าสนใจคือโพลเรื่องความเห็นต่อ ส.ว.สรรหาของสำนักทำโพลแห่งหนึ่งซึ่งให้เลือกระหว่าง

เห็นด้วย เพราะบ้านเมืองจะเปลี่ยนแปลงไปในทางที่ดีขึ้น สามารถตรวจสอบและควบคุมการดูแลทำงานของรัฐบาลได้

กับ

ไม่เห็นด้วย เพราะ ส.ว. ควรมาจากการเลือกตั้งของประชาชนหรือ ให้มีการเลือกตั้งด้วยส่วนหนึ่ง อีกทั้งระยะเวลา 5 ปีนานเกินไป อาจเป็นการสืบทอดอำนาจ และอาจเป็นการนำเอาพรรคพวกตนเองเข้ามา

จะเห็นว่าตัวเลือกเห็นด้วยนั้นมีการพ่วงเรื่องบ้านเมืองจะเปลี่ยนแปลงไปในทางที่ดีขึ้น ในขณะที่ตัวเลือกไม่เห็นด้วยกลับไปพูดเรื่องที่มา แต่ไม่ได้พูดถึงว่าส.ว.อาจจะทำให้บ้านเมืองแย่ลงก็ได้

ดังนั้นสองตัวเลือกที่ให้มาจึงไม่ได้เป็นตัวเลือกที่ตรงข้ามกันแต่อย่างใด

https://prachatai.com/journal/2016/04/65362



คณิตศาสตร์อย่างที่ควรจะเป็น
July 10 at 3:15 AM ·

และที่จะขาดไปไม่ได้ คือการเลือกกลุ่มตัวอย่างครับ เอาหลักการก่อน กลุ่มตัวอย่างที่ดีในทางสถิติคือกลุ่มตัวอย่างที่เป็นตัวแทน หรือสะท้อนธรรมชาติของประชากรที่จะศึกษาได้เป็นอย่างดี ดังนั้นกลุ่มตัวอย่างที่ดีจึงไม่ควรจะ bias

นอกจากนั้นกลุ่มตัวอย่างที่ดีควรจะเยอะครับ ในทางทฤษฎี ยิ่งตัวอย่างเยอะเท่าไรข้อสรุปที่ได้ก็จะยิ่งแม่นยำขึ้นเท่านั้น แต่ในทางปฎิบัติก็คือ ในการทดลองบางอย่างเราอาจไม่สามารถทำกับกลุ่มตัวอย่างที่เยอะได้ ดังนั้นจึงต้องหาจุดที่เหมาะสม นั่นคือไม่เยอะมากไปจนทำไม่ได้จริง แต่ก็ต้องไม่น้อยเกินไปจนแทบจะสรุปอะไรไม่ได้นะครับ

อย่าง n=2 นี่ผมก็ว่าน้อยไปนิดนึงที่จะสรุปผลอะไรในระดับที่ส่งผลต่อชีวิตคนมากมายขนาดนั้น

แต่ก็ต้องออกตัวตรงนี้ก่อนว่าผมก็ไม่ใช่ผู้เชี่ยวชาญที่ทำงานด้านสถิติโดยตรง ก็อาจจะเข้าใจคาดเคลื่อนไปเองว่ากลุ่มตัวอย่างควรจะมีจำนวนมากหน่อย ก็ขอแนบความคิดเห็นเพิ่มเติมจากนักสถิติตัวจริงเอาไว้หน่อย

ก็ลองไปศึกษา แล้วก็ใช้วิจารญาณกันดูเองนะครับ

https://www.facebook.com/ArnondSak/posts/192097809593413