区间估计与异动检测-九数云BI

标签: 区间估计 | 发布时间: 2024-12-24 17:48:50

本文介绍了区间估计与异动检测,同学们可通过无代码的可视化工具实现上述所有分析过程,提高分析效率,把更多时间用干业务的思考。

本文基于区间估计,并基于区间估计的内容,讲讲异动检测的方法+案例,以下是本章节目录

1 区间估计

1.1 区间估计基础概念

1.2 区间估计案例-Excel+ BI工具(九数云)

2 异动检测

2.1异动检测步骤

2.2 异动检测案例 +代码

1、 区间估计

1.1 区间估计基础概念

区间估计主要通过样本指标推断总体指标,适用于无法收集总体全部数据的情况,如市场研究、质检等场景,以下为重点概念:

  • 样本:通过抽样来获取总体内部分样本的数据(如均值、方差等),用于反推总体的数据;
  • 点估计:抽样样本的具体数值,即为点估计,比如样本均值5cm;
  • 区间估计:由于抽样样本与总体之间有误差,因此,总体区间可通过样本的点估计加减边际误差 SE得出,即 区间估计=点估计 +-误差;标准误差SE是标准差除以样本量的平方根(n),即SE =S/√n,这意味着随着样本量N增加,:标准误差SE会减小,样本均值作为总体均值的估计变得更加精确;
  • 区间估计流程

a.确认要推断的总体指标,结合置信度计算需要的样本量

b.抽样,测量样本的数值(如:均值、方差等)

c.基于给定置信水平(1-alpha值,可以理解为有多大把握结果是正确的,置信水平越大则推断误差越大)计算区间估计(公式不用记,直接套),样本量过小时,使用t分布。

区间估计与异动检测-九数云BI插图

当样本量足够大时,t分布就会变为Z分布,下面直接结合小案例看看如何实现区间估计

1.2 区间估计案例-Excel&九数云BI工具实现

假设24年1月的部分客户的DAU如左图所示(样本),我们想以此估计总体客户的DAU区间范围(注意一般情况下公司客户的数据为总体数据,该案例仅使用部分样本推断总体)

Excel实现

结合计算公式,适用大样本,实现方法如下:

区间估计与异动检测-九数云BI插图1

  • COUNT函数计算样本数
  • 0AVERAGE函数计算均值
  • STDEV函数计算样本标准差
  • CONFIDENCE函数,结合置信水平(此处选99%,即有99%的把握结果是对的)+标准差和样本数,计算置信区间值
  • 计算区间估计上/下限,公式见表

无代码BI工具实现【九数云 BI 工具】

  • 导入源数据(SOL、Excel、钉钉、飞书表格等都支持);
  • 在分析表功能下,使用封装好的汇总函数直接得出样本数、均值、标准差;
  • 使用计算字段计算区间估计上/下限
  • 【完整流程】

区间估计与异动检测-九数云BI插图2

区间估计与异动检测-九数云BI插图3

2、异动检测

2.1 异动检测步骤

在企业内,往往所有客户的数据就是总体(已知总体),因此,在异常检测部分,我们无需使用上面提到的标准误差SE,可直接用标准差(总体σ)替代。

异动检测需要用到统计学中的经验法则“3σ法则”,即在满足正态分布的情况下,几乎所有的数据(约99.73%)都位于均值(u)的+3个标准差(σ)的范围内。

因此,加入数据超过了均值3个标准差范围内,可认为数据出现了异动。

2.2异动检测案例+代码实现

基于上文提到的DAU数据,以下为计算步骤+Python实现代码(代码见最后附录)

区间估计与异动检测-九数云BI插图4

  • 选取过去N日指标作为近期趋势,N不能太大(易包含噪音),此处选滚动过去30日;
  • 计算N日指标的均值+标准差,并计算正常波动区间(3σ法则,可按实际情况缩小范围限制,Python详细代码见附录)
  • 监控日指标波动是否会超过该区间,超过则为异常波动(见图标注部分)
  • 针对异常波动部分进行拆解+归因

区间估计与异动检测-九数云BI插图5

以上无论是Excel或Python,都有一定的代码量,而实际上,同学们可通过无代码的可视化工具实现上述所有分析过程,提高分析效率,把更多时间用干业务的思考。如所在企业是中小微企业,完全可以用帆软旗下的新产品【九数云BI】替代excel、sql、python等传统数分工具。



上一篇:
下一篇:
相关内容