区间估计与异动检测-九数云BI
本文介绍了区间估计与异动检测,同学们可通过无代码的可视化工具实现上述所有分析过程,提高分析效率,把更多时间用干业务的思考。
本文基于区间估计,并基于区间估计的内容,讲讲异动检测的方法+案例,以下是本章节目录
1 区间估计
1.1 区间估计基础概念
1.2 区间估计案例-Excel+ BI工具(九数云)
2 异动检测
2.1异动检测步骤
2.2 异动检测案例 +代码
1、 区间估计
1.1 区间估计基础概念
区间估计主要通过样本指标推断总体指标,适用于无法收集总体全部数据的情况,如市场研究、质检等场景,以下为重点概念:
- 样本:通过抽样来获取总体内部分样本的数据(如均值、方差等),用于反推总体的数据;
- 点估计:抽样样本的具体数值,即为点估计,比如样本均值5cm;
- 区间估计:由于抽样样本与总体之间有误差,因此,总体区间可通过样本的点估计加减边际误差 SE得出,即 区间估计=点估计 +-误差;标准误差SE是标准差除以样本量的平方根(n),即SE =S/√n,这意味着随着样本量N增加,:标准误差SE会减小,样本均值作为总体均值的估计变得更加精确;
- 区间估计流程
a.确认要推断的总体指标,结合置信度计算需要的样本量
b.抽样,测量样本的数值(如:均值、方差等)
c.基于给定置信水平(1-alpha值,可以理解为有多大把握结果是正确的,置信水平越大则推断误差越大)计算区间估计(公式不用记,直接套),样本量过小时,使用t分布。
当样本量足够大时,t分布就会变为Z分布,下面直接结合小案例看看如何实现区间估计
1.2 区间估计案例-Excel&九数云BI工具实现
假设24年1月的部分客户的DAU如左图所示(样本),我们想以此估计总体客户的DAU区间范围(注意一般情况下公司客户的数据为总体数据,该案例仅使用部分样本推断总体)
Excel实现
结合计算公式,适用大样本,实现方法如下:
- COUNT函数计算样本数
- 0AVERAGE函数计算均值
- STDEV函数计算样本标准差
- CONFIDENCE函数,结合置信水平(此处选99%,即有99%的把握结果是对的)+标准差和样本数,计算置信区间值
- 计算区间估计上/下限,公式见表
无代码BI工具实现【九数云 BI 工具】
- 导入源数据(SOL、Excel、钉钉、飞书表格等都支持);
- 在分析表功能下,使用封装好的汇总函数直接得出样本数、均值、标准差;
- 使用计算字段计算区间估计上/下限
- 【完整流程】
2、异动检测
2.1 异动检测步骤
在企业内,往往所有客户的数据就是总体(已知总体),因此,在异常检测部分,我们无需使用上面提到的标准误差SE,可直接用标准差(总体σ)替代。
异动检测需要用到统计学中的经验法则“3σ法则”,即在满足正态分布的情况下,几乎所有的数据(约99.73%)都位于均值(u)的+3个标准差(σ)的范围内。
因此,加入数据超过了均值3个标准差范围内,可认为数据出现了异动。
2.2异动检测案例+代码实现
基于上文提到的DAU数据,以下为计算步骤+Python实现代码(代码见最后附录)
- 选取过去N日指标作为近期趋势,N不能太大(易包含噪音),此处选滚动过去30日;
- 计算N日指标的均值+标准差,并计算正常波动区间(3σ法则,可按实际情况缩小范围限制,Python详细代码见附录)
- 监控日指标波动是否会超过该区间,超过则为异常波动(见图标注部分)
- 针对异常波动部分进行拆解+归因
以上无论是Excel或Python,都有一定的代码量,而实际上,同学们可通过无代码的可视化工具实现上述所有分析过程,提高分析效率,把更多时间用干业务的思考。如所在企业是中小微企业,完全可以用帆软旗下的新产品【九数云BI】替代excel、sql、python等传统数分工具。
上一篇: 商业智能bi系统是什么?怎么在各类行业应用-九数云BI
下一篇: 数据分析bi工具:九数云BI的最新介绍