数据清洗是整个数据分析流程中的基石,其核心目标在于提升数据的可靠性和精确性,以便后续的数据分析和挖掘工作更加准确、有效。在这个环节中,针对字段内容进行精细化处理以保留所需部分,是清洗的一项关键任务。
我们在进行数据清洗的时候,经常会遇见遇见这样的情况:
字段中存在一些不需要的内容或不需要的字符
金额字段前有¥符号,但是我们只需要纯数字的数据
九数云在本文将为您介绍7个数据清洗公式,干货满满,速速码住!
一、数据清洗-去除字段前后字符
一些订单信息表中,对于销售额、利润等字段会包含货币符号「¥」,想要将字符清除掉进行一些其他的运算。
Excel首尾字符智能清理
用户在使用、更新Excel或是本地数据源的过程中,经常会遇到Excel「文本」的头尾包含「空格或换行符号」等,九数云系统会自动清理单元格字符前后的空格等符号,更加高效便捷。
除了自动清理的字符外,还有一些其他特殊的字符,我们可以结合使用函数来清理:
- 先用 LEFT 函数截取第一位返回值,与( 符号进行比较。
- 如果字符中的第一个字符为(,那么就需要使用 SUBSTITUTE 函数替换字段中的 (、)、¥内容,并使用 CONCATENATE函数拼接「-」负号字符;
- 如果字符中的第一个字符不是(,那么就使用 SUBSTITUTE 函数替换字段中的 ¥内容;
- 最后使用 TONUMBER 函数将结果转换成数值类型。
二、7个数据清洗公式
1. LEFT()
目的:截取前几个字符串
示例:LEFT("Fine software",8)=Fine sof
2. RIGHT()
目的: 截取后几个字符串
示例:RIGHT("Itisinteresting",6)=esting
3. MID()
目的:返回指定位置字符串
示例:MID("Finemoresoftware",9,8)=software
参数说明:MID(text,start_num,num_chars)
- text:包含要提取字符的文本串
- start_num:文本中需要提取字符的起始位置,文本中第一个字符的start_num为1,以此类推
- num_chars:返回字符的长度
4. SUBSTITUTE()
目的:替换指定字符
示例:SUBSTITUTE("database","base","model")=datamodel
将“database”中的“base”替换成“model”
参数说明:SUBSTITUTE(text,old_text,new_text,instance_num)
- text:原始字符串。
- old_text:需要被替换的部分字符。
- new_text:用于替换old_text的字符。
- instance_num:指定用new_text替换第几次出现的old_text。可以不指定,若未指定,则替换所有出现的old_text。
5. CONCATENATE()
目的: 将多个字符串合并成一个字符串
示例:CONCATENATE("Average","Price")=AveragePrice
6. TONUMBER()
目的:文本转为数字
示例:TONUMBER("123")=123
7. TOINTEGER()
目的:文本转为整数
示例:TOINTEGER("123.56")=123
三、总结
在本文,九数云为您带来了7个数据清洗公式,除此之外,九数云还支持Excel首尾字符智能清理,快来使用九数云开始您的数据清洗之旅吧~
上一篇: 如何科学地进行安全库存管理?——九数云BI
下一篇: 九数云预算管理方案,保障预算录入、管理、改善全流程——九数云BI