气死!又被数据骗了!

做数据分析的人做的久了,就会自然而然产生一种想法,认为数据展示出来的东西一定是正确的。毕竟如果连我们自己都质疑数据分析的权威性和说服力,那我们数据分析人的工作不就成了白费功夫了嘛。

一开始,我也认为这是一条不可撼动的“铁律”,但是渐渐我开始发现,数据分析很难做到一丝不苟地严谨,也很难做到完全正确,有时候甚至会误导我们的判断。因为数据不仅能够揭露事实,它也可以用来隐藏真相!

比如下面这三种骗局,就是利用了数据的欺瞒性,变成了很容易让人上当的鬼把戏!

1、在坐标轴做手脚

可视化图表本来是为了能够让人更加直观、方便、快捷地了解数据情况,包括数据的异常情况和发展趋势,所以公司的老板和领导都喜欢看图表,觉得图表总不会骗人吧?但是可视化图表有一个很大的局限性,就是必须保证指标的统一性。而很多人恰恰利用了指标的不一致性,或是增加某些东西,或是隐藏某些东西,就可以让图表说谎。

1)横坐标作弊:让数据更“平稳”

如果你是一位投资人,看到了上图这样一份公司近几年的财务报告,展示了公司每年净利润的走势,你就会觉得:哇,这家公司经营的不错啊,每年都在增长,看起来很有投资价值!但是如果你是一个比较善于观察的人,你就会发现一个问题:横坐标轴只有奇数列!这就是很多人都会玩的一种把戏,故意删减掉一些影响整体趋势的值,为了让整个数据更加平滑、平稳,就会直接将坐标轴列删除,美名其曰“数据太多、分组展示。”而实际上,我们将横坐标轴进行还原,这家公司的财务报告就可能变成下图这个样子:
IMG_257
财务数据波动如此剧烈,估计每个投资人都不敢给这家公司一分钱了吧!

2)纵坐标作弊:让数据更“悬殊”我们经常可以在电视中看到这样的统计分析图,用来展示某个属性或者指标的对比情况。

比如这位棒球选手的速度,直观上给人的感觉好像是下降了非常多,但是我们如果看到柱状图上的数据之后,就会发现根本就是从77.3下降到了75.3而已。

其实跟上一种把戏一样,这个骗局就是将纵坐标轴“处理”了一下,纵坐标轴不再是从0开始,而是从某个值开始,这样就会将两者之间的差异进行放大,会让我们觉得数据十分的悬殊。

而实际上,我们将纵坐标的起点还原为0之后就会发现,其实二者的差距非常小。
IMG_259
当然这种把戏玩得最好的,还要说是美国的媒体,用这种方式去抨击领导人或者是赞扬领导人可以说是屡试不爽!

3)整体比例作弊:让数据更“突出”如果大家觉得不用坐标图,不就可以避免横纵坐标轴的作弊行为了吗?那你可就想的太简单了,因为这一招更加高明!当然这招还是美国媒体玩的最好,比如下面这份统计数据,最高与最低差了33%的比例,可以说非常悬殊。

但是其实我们很容易发现,这三个数值加起来的比例根本不是100%,而是120%!也就是说统计者人为地将整体数据设置为了120%,因为展示的是比例关系,因此这种比例就会扩大,实际上两者之间的差距仅仅只有28%!

2、伪相关

比起第一种把戏,这种把戏没有在可视化图表上动手脚,而是利用了大家对于相关性的误解,认为相同即是相关。比如说下面这两张图,第一张图是美国新建住房的销售量与新建住房价格之间的关系走势图,第二张图是美国每年的芝士消费量与每年被床单缠住窒息而死的人数之间的关系走势图。
在这里插入图片描述

我们能够看出来两张图都呈现出了高度的拟合性,那么我们能说两种图里的因素都具有很高的相关性吗?

首先,第一张我们应该都没有什么质疑,因为房价与销售量之间存在很强的因果关系,所以两者的变化趋势基本都是一致的;

但是第二张中虽然两个因素的变化趋势也是一致的,但是我们很难相信,一个国家的芝士消费量,会与每年被被单缠住窒息的死亡人数有关系,因为这两者之间很难产生因果关系,这就叫做“伪相关”。

类似的例子还有很多,比如尼古拉斯凯奇在电影中的出镜次数和淹死在游泳池里的人数等。

3、逻辑误导

逻辑误导经常出现在我们在进行演绎推理的时候,比如最常见的逻辑误导就是以偏概全,通过根据群体中一小部分人的经历得出有关整个群体的结论。

比如,你是一家集团公司的总裁,在北京和上海均有业务,你要根据市场占有率情况进行重大的战略调整。两地的市场占有率如下表。
在这里插入图片描述
所以,你会判断上海市场的业务要优于北京市场的,对么?

此时,只考虑了地区的差异,把所有的数据看成了整体,看似确实是上海市场的业务优于北京市场。

但如果考虑多因素分析,根据各项业务实际占有率,你会惊奇地发现:产品M的市场占有率,北京(49.33%)高于上海(47.13%),产品N的市场占有率,北京(40.4%)也同样高于上海(40%)。
在这里插入图片描述
北京的每一项业务都比上海要好!

所以,面对数据,我们一定要秉持着绝对客观、严谨的态度去看待,做数据分析,是为了推动业务的发展,挖掘更多价值,而不是为了迎合业务想要的结果。

诸位共勉!

文章来源:网络 版权归原作者所有

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/605665.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JVM认识之垃圾收集算法

一、标记-清除算法 1、定义 标记-清除算法是最基础的垃圾收集算法。它分为标记和清除两个阶段。先标记出所有需要回收的对象(即垃圾),在标记完成后再统一回收所有垃圾对象。 2、优点和缺点 优点:实现简单缺点: 可能…

C++类和对象详解(一)

目录 面向过程和面向对象初步认识类的引入类的定义类的两种定义方式声明和定义全部放在类体中 声名定义分离 类的作用域成员变量命名规则建议访问限定符 类的封装类的实例化类对象模型类的对象大小的计算扩展 结构体内存对齐规则 感谢各位大佬对我的支持,如果我的文章对你有用,…

Linux系统一步一脚印式学习

Linux操作系统具有许多特点和优势。首先,它是开放源代码的,也就意味着任何人都可以对源代码进行查看和修改。其次,可以同时支持多个用户且可以同时执行多个任务,此外,Linux操作系统也非常稳定和安全。相对于其他操作系…

MyBatis认识

一、定义 MyBatis是一款优秀的持久层框架,它支持自定义 SQL、存储过程以及高级映射。MyBatis 免除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作。MyBatis 可以通过简单的 XML 或注解来配置和映射原始类型、接口和 Java POJO(Plain Old Java O…

关于zabbix简介及zabbix服务端的部署

文章目录 一、zabbix概念1、zabbix简介2、zabbix主要特点3、zabbix运行机制4、zabbix应用场景5、zabbix监控原理6、zabbix的子程序7、zabbix监控的架构模式7.1 server-client架构7.2 server-proxy-client架构7.3 master-node-client 二、部署zabbix1、服务器配置2、服务器环境3…

ruoyi-nbcio 基于flowable规则的多重并发网关的任意跳转

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码: https://gitee.com/nbacheng/ruoyi-nbcio 演示地址:RuoYi-Nbcio后台管理系统 http://218.75.87.38:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码: h…

认识下MapReduce

🔍 什么是MapReduce? MapReduce是一种分布式计算模型,最初由Google提出,用于处理大规模数据集的并行计算。它将数据处理任务分解成独立的Map和Reduce两个阶段,以实现分布式计算和并行化处理。Map阶段负责将输入数据映…

自然语言处理(NLP)技术有哪些运用?

目录 一、自然语言处理(NLP)技术有哪些运用? 二、Python进行文本的情感分析 1、NLTK库: 2、TextBlob库: 三、错误排除 一、自然语言处理(NLP)技术有哪些运用? 自然语言处理(NLP&#xff09…

DAY 3

1. #include "widget.h"Widget::Widget(QWidget *parent): QWidget(parent) {this->resize(540,415);this->setFixedSize(540,415);//窗口标题this->setWindowTitle("盗版QQ");//窗口图标this->setWindowIcon(QIcon("E:\\qq\\pictrue\\pi…

520情人节送什么礼物?五款好物分享,情侣必看!

在浪漫的520情人节,为心爱的人挑选一份特别的礼物是每对情侣表达爱意的重要方式。市场上琳琅满目的选择让人眼花缭乱,究竟什么样的礼物能触动TA的心弦?本篇分享将为您精选五款既实用又充满情意的好物,无论是甜蜜的开始还是长久的陪…

linux上go项目打包与部署

1.第一步把项目打包 1.确保本地goland的操作系统为linux go env找到GOOS如果为window就修改为Linux 修改命令为 go env -w GOOSlinux2.打包 在项目根目录下输入 go build main.go然后项目根目录下会出现一个mian的二进制文件 3.上传包 将 main 程序包放到服务的目录下&…

图像质量评价方法简介与Python实现

图像质量评价方法简介与Python实现 在图像处理和计算机视觉领域,评价图像质量的准确性是一项重要任务。评价图像质量的方法可以分为主观评价和客观评价两种。主观评价是通过人类观察者进行评价,而客观评价则是通过计算机算法来评价。本文将介绍图像质量…

PMP课程知识点很多,无法入手,该如何学习?

回顾整个学习过程,我花费了不少时间,但也学到了系统的项目管理知识,考试结果也让我感到满意。在学习过程中,我认为以下几点非常重要: 1、需要对课本进行整体阅读,以便对内容有一个整体印象; 2…

Git系列:git commit 被忽视的高级用法

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

增量同步笔记

2.2.2.增量同步 全量同步需要先做RDB,然后将RDB文件通过网络传输个slave,成本太高了。因此除了第一次做全量同步,其它大多数时候slave与master都是做增量同步。 什么是增量同步?就是只更新slave与master存在差异的部分数据。如图…

电脑文件x3daudio1 7.dll怎么修复?快速修复x3daudio1 7.dll的方法

你试过电脑文件x3daudio1 7.dll丢失么?如果你有遇到这种情况,那么可能你的某些程序就会启动不了,毕竟这个文件是用来处理音频功能的,那么我们要怎么去修复?下面我们一起来详细的了解电脑文件x3daudio1 7.dll这个文件吧…

(三)小程序样式和组件

视频链接:尚硅谷2024最新版微信小程序 文章目录 小程序的样式和组件介绍样式-尺寸单位 rpx样式-全局样式和局部样式组件-组件案例演示组件案例-轮播图区域绘制组件案例-轮播图图片添加组件案例-绘制公司信息区域组件案例-商品导航区域组件案例-跳转到商品列表组件案…

【DPU系列之】如何通过带外口登录到DPU上的ARM服务器?(Bluefield2举例)

文章目录 1. 背景说明2. 详细操作步骤2.1 目标拓扑结构2.2 连接DPU带外口网线,并获取IP地址2.3 ssh登录到DPU 3. 进一步看看系统的一些信息3.1 CPU信息:8核A723.2 内存信息 16GB3.3 查看ibdev设备 3.4 使用小工具pcie2netdev查看信息3.5 查看PCIe设备信息…

Vue-路由介绍

目录 一、思考引入 二、路由介绍 一、思考引入 单页面应用程序,之所以开发效率高,性能高,用户体验好,是因为页面按需更新。 而如果要按需更新,首先需要明确:访问路径和组件的对应关系。该关系通过路由来…

Python爬虫获取豆瓣电影Top100

大家好,我是秋意零。 今天分析一篇,Python爬虫获取豆瓣电影Top100。 在此之前,我没有学习过爬虫,只有一丢丢的Python基础。下面效果的实现源码几乎没经过我,而是AI百老师。我主要负责了对应的调试以及根据我想要的功…
最新文章