数据分析必看!常见的数据处理的三种方法!——九数云BI
在数字化时代,数据处理已经成为各个行业和领域不可或缺的核心技能。今天,九数云为我们带来了常见的数据处理的三种方法,一起来学习吧!
数据分析真的难吗?很多人被数据分析这4个字都能吓退。正所谓没有找对方向,不难也变难。今天给大家推荐常见的数据处理的三种方法,让数据分析不再难!无论你是文科还是理科,是资深职场人还是职场菜鸟,它都适合。
一,数据处理的三种方法:删除重复值(Removing Duplicate Records)和产生新数据组
顾名思义,在我们的数据库的存储中,一些重复数值的出现是很常见的。造成数值重复的原因有多种多样的,有的时候就是记录错误,有的时候就是因为系统设置的问题。但无论怎么样,在我们数据处理中把重复的数值删除掉是在我们数据处理中十分重要的一项工作。重复值不仅影响我们最后的计算的准确性,如果没有删除重复值的表格同另外一个表格合并的话,重复值的数量还会加倍。
各个软件或语言有不同的方法来删除重复的数值。在Excel中,选中你想处理得表格,然后再Data选项中选择Revome Duplicates就可以。SQL语句中,一般都是用select distinct * from xxx语句来删除掉重复数值;在SAS中,可以用proc sort语句来删除重复数值等等。
在表格中产生新的一列,在数据处理中也是一项十分重要的工作。举个简单的例子,比如在一家公司的销售部门,我们想把销售人员的业绩进行分类。比如每月销售额大于5万元的算金牌销售;3万到5万的算银牌销售;1万到3万的算达标;1万以下的算未达标。那产生的新的一列中数值就包括了“金牌”,“银牌”,“达标”和“未达标”等,这些新的数据是不可能记录在数据库中的。
同样在不同的软件和语言中,所到的编程语言也是不一样的,但一般的思路都是会用到IF...THEN...语句,只不过不同的语言和软件所用到的语法有不同。在SQL中,用到的是case when语句,还是用上面的销售额的例子。如果产生的新的这一列的名称叫“业绩状况”,那基本的语法逻辑是
case when 销售额>50000 then 金牌 when 50000>=销售额>=30000 then 银牌 when 30000>销售额>=10000 then 达标 when 10000>销售额 then ‘未达标’ end as 业绩状况。
当然,还有其他的方式产生新的一列,但无论怎么样,在数据处理中根据所在行业或部门的商业逻辑产生新的一列是十分常见的处理数据的方法。
二,数据处理的三种方法:表格的合并
表格的合并指的是在数据处理中,两个表格需要合并成同一个表格。当然在合并的过程中不必把所有的列都合并到一起,可以把只需要的表格合并到一起。这个过程在数据处理中也是十分常见的,因为在有一定规模的公司的数据库中,不可能所有的信息都存在一个表格中。比如在超市中,会员的信息可能在一个表格中(可能有姓名,年龄,会员时长等信息),而会用的消费信息会在另一个表格中。如果一个课题是想要分析不同年龄段的消费信息的话,那就需要把两个表格合并到一起。
这首先需要两个表格有一个共同列,这是两个表格合并的基础和先决条件。合并表格在SQL中用的是join,join也包括left join,right join,inner join和outer join。最常用的就是left join (其实right join和left join在逻辑上是一样的)。当然在其他的软件中也有不同的方法进行合并,比如在SAS中的Date Step用的就是merge。
三,数据处理的三种方法:数据的提取和运算
这个在理解上很简单,说得直白点就是把对应的数据提取出来做加减乘除,应用其实大家也很好理解,比如还是在超市中,超市内部的系统记录的肯定是每次购买的记录,可能每一项就在数据库中记录一行。举个例子,比如你去超市买了一个苹果,一盒鸡蛋和一个面包,当在付款的时候收银员会扫描你所购买的东西,在数据库中的记录是三行,苹果一行,鸡蛋一行,面包一行,每一行中记录的可能有时间,地点,价格,以及各分类的具体信息,比如面包是什么牌子的,产地哪里,保质期多长等等十分详细的信息。
当分析人员想要知道上个星期面包的销售额的时候,那就需要在提取数据的时候加上两个条件,一个是时间条件“上个星期”,一个是商品条件“面包”,然后做加法。
在提取上,一般语句用到的都是where语句,当然,有的软件或语言也有if then语句。在做运算的时候就需要把各分类做一个分类合计了,在SQL中的分类合计最基本的就是在select模块中用sum方程,这个很好理解,就是合计,之后在运用group by,这个就是分类。
除了上述常见的数据处理的三种方法外,其实在数据处理中根据不同的商业逻辑经常用到的方法还有很多,比如删掉不想要的列或行,这个就比较简单了。比较复杂的还有数据的排序,最复杂的是方程或公式(function)的运用,这个在数据分析中是非常大的一部分,有对处理数字型数值运算的方程,比如sum,average,rank等,也有对处理字符型数值运用的公式,比如从一串字符中提取想要的信息,合并两个数值等,在后面我也会给大家分享。
当然,即使有了这些方法,但对于根本没系统学习的人而言,数据分析仍然是一件难事,对此,推荐大家使用九数云BI,它在保留BI工具的核心功能的基础上,优化操作界面与交互方式,低门槛操作简单,不需要IT人员介入,业务人员就可以自由地构建自己所需要的人事看板、财务看板、市场看板、销售看板等,0代码的特点和拖拽式生成图表的方式也非常适合新手。
上一篇: 新手spss数据分析怎么学?没有思路的来看这篇!——九数云BI
下一篇: 数据处理方法有哪些?5个角度让你轻松把握!——九数云BI