在获取业务数据时,由于数据来自多个来源,通常不能直接进行计算和可视化展示分析。在这种情况下,我们需要使用BI工具对现有的数据进行数据处理,以提高数据质量。
今天小九给大家介绍一些基础的文本数据清洗公式,消除数据中的错误、缺失值、重复值和异常值,保障数据的可复用性,从而提高数据的质量和可信度。
一、文本数据清洗:英文大小写
在处理数据时,用户常常需要将英文字母进行大小写转换。在九数云中,有三个函数处理大小写十分好用:
1. PROPER()
目的:将文本数据中的首字母和所有非字母字符后的第一个字母转化为大写,其他字母变为小写。
示例:PROPER("SpreaDSheEt")=Spreadsheet
2. LOWER()
目的: 将文本数据中的大写字母全部转换成小写
示例:LOWER("SpreaDSheEt")=spreadsheet
3. UPPER()
目的:将文本数据中的小写字母全部转化大写
示例:UPPER("SpreaDSheEt")="SPREADSHEET"
二、文本数据清洗:清除文本首尾空格
1. TRIM()
目的:清除文本首尾所有的空格
示例:TRIM(" Monthly Report ")=Monthly Report
三、文本数据清洗:去除字符串
用户有时需清洗掉数据中的一些不需要的字符。例如,去掉表中的“【】”及其中间的内容,如下图所示:
可以结合使用两个函数,先使用 FIND 函数找到“【”和“】”在字符串中的位置,以及【XX】所占的字符数,再使用 REPLACE 函数,根据指定的字符数,用空值替换【XX】这部分的内容。
1. FIND( )
目的:返回字符所在位置
示例:FIND("i","Information")=9
参数说明:FIND(find_text,within_text,start_num)
find_text:需要查找的文本
within_text:包含需要查找文本
start_num:非必填项,从字符串哪个位置开始查找,within_text 里的索引从 1 开始,如果省略 start_num,则假设值为 1
2. REPLACE()
目的:根据指定的字符数,用其他文本串来替换某个文本串中的部分内容
示例:REPLACE("0123456789",5,4,"*")=0123*89
参数说明:REPLACE(old_text,start_num,num_chars,new_text)
old_text:需要被替换部分字符的文本或单元格引用
start_num:需要用 new_text 来替换 old_text 中字符的起始位置
num_chars:需要用 new_text 来替换 old_text 中字符的个数
new_text:需要替换部分旧文本的文本
四、总结
本文为您介绍了6个文本数据清洗公式,在九数云内使用函数有一个很方便的地方就是,对于我们平时并不熟悉的函数,通过九数云内公式界面可以搜索并查看函数释义,还对公式合法性判断进行优化,细化报错提示,更准确的指出不合法的地方。且增加波浪线标识,帮助用户更快地定位公式出错位置,小白再也不用在百度和excel中间来回跑了!快来使用九数云开始你的数据分析之路吧~
上一篇: 人效分析报告:如何判断企业的人力成本是否过高?——九数云BI
下一篇: PPT数据分析报告如何提升工作效率——九数云BI