数据探索是什么?怎么做?-九数云BI

标签: 数据探索 | 发布时间: 2025-01-22 11:19:03

数据探索是拿到数据要做的第一步,目的是对要分析的数据有个大概的了解。弄清数集质量,大小,特征和样本数量,数据类型,数据的概率分布等。数据探索主要包括:数据质量探索和数据特征分析。

数据探索是拿到数据要做的第一步,目的是对要分析的数据有个大概的了解。弄清数集质量,大小,特征和样本数量,数据类型,数据的概率分布等。数据探索主要包括:数据质量探索和数据特征分析。

1.什么是数据探索?

数据探索定义:数据探索是指数据分析的初始步骤。在数据探索过程中,数据分析师使用数据可视化和统计技术来描述数据集特征(如规模,数量和准确性),以便更好地了解数据的性质。

数据探索技术包括手动自动数据探索软件解决方案。自动数据探索软件解决方案直观地探索和识别不同数据变量之间的关系、数据集的结构、异常值的存在以及数据值的分布,以揭示模式和兴趣点,使数据分析师能够更深入地了解原始数据。

2.数据探索:数据质量探索

数据质量探索顾名思义,就是了解数据的大体质量,常见的数据问题比如缺失,异常值与数据不一致。接下来我们就一一介绍,这里先说明,我们主要使用一个类似于下图格式的样本数据。

1. 缺失值分析

pandas判断缺失值一般采用 isnull()函数,生成所有数据的true/false矩阵。如图1,对于庞大的数据,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺失数据的位置。但是,我们可以巧用isnull()返回的DataFrame来提炼结果。

2. 异常值分析

异常值指的就是不合常理的数据,比如年龄200岁,人奔跑速度2km/s等等。我们不能忽略异常值,这会使得挖掘结果出现偏差。对于异常值的探索我们有2种方案:

  • 直接用布尔表达式筛选:比如年龄超过200岁print(data[data['age']>200])
  • 绘制箱图(boxplot):并不通用,还要具体情况具体分析

3. 数据探索:数据特征分析

1. 分布情况

有必要了解数据的整体分布情况,观察数据分布的对称性等规律。可以绘制频率分布直方图hist条形图饼图pie

2. 对比分析

了解相互联系的指标的变化情况对比,考虑使用折线图plot

3. 统计量分析

  1. 集中趋势分析:平均数data.mean(),中位数data.median(),众数。
  2. 离散程度分析:极差,标准差data.std(),变异系数。
    变异系数=(标准差 / 平均数)×100%,用来比较不同单位的数据的离散程度,而标准差一般用于比较相同单位。

4. 相关性分析

一般来说可以通过绘制散点图,来分析2个变量间的相关性。
相关系数:

  • 皮尔森相关系数:适用于正态分布,只有2个变量是线性关系时才会完全相关。
    相关系数 -1 ≤ r ≤ 1,r的绝对值越趋近于1,相关性越高。
  • 斯皮尔曼 秩相关系数 :无需正态分布,只要2个变量存在严格单调关系就可以检测相关性。

数据探索是什么?怎么做?-九数云BI插图

进行数据探索,推荐使用九数云。九数云作为一款高效的数据处理与分析工具,具有以下显著优点:一是强大的数据处理能力,支持千万级别数据量的实时处理与分析,秒出结果;二是操作简单易用,采用拖拽式设计,无需编写复杂公式,零代码即可完成数据分析;三是丰富的可视化功能,提供多种图表类型和交互式仪表板,可多维度展示数据;四是支持多数据源接入,能够打破数据孤岛,实现数据的实时同步与整合;五是安全性高,通过多种安全措施确保数据隐私。

数据探索是什么?怎么做?-九数云BI插图1



上一篇:
下一篇:
相关内容