기억의 기록(나의 기기)

[Data Analysis] 데이터 시각화를 위한 태블로 - 1주차 본문

스터디

[Data Analysis] 데이터 시각화를 위한 태블로 - 1주차

황경하 2024. 6. 30. 14:14
반응형

Data Analysis - 데이터 시각화를 위한 태블로 1주차

안녕하세요, 데이터 과학 전공하고 있는 황경하입니다. 

오늘은 데이터 분석가를 꿈꾸고 있는 분들과 함께 시작한 태블로 스터디에 대한 기록을 남기려 합니다.

강의는 총 5주차로 구성되어 있으며, 이 글에는 수업 내용을 정리하여 포스팅하겠습니다.

 

강의 (광고 X) : https://m.boostcourse.org/ds121/lectures/243160

 

데이터 시각화를 위한 태블로

부스트코스(boostcourse)는 모두 함께 배우고 성장하는 비영리 SW 온라인 플랫폼입니다.

m.boostcourse.org

 

*  문제 시 삭제하겠습니다.

Digital Transformation (DT)

Digital Transformation은 한국말로 직역하면, 디지털 변환입니다.

 

무엇을 변환할까요? 바로 회사의 내부 문화입니다. 즉, 기존의 의사 결정이 주관적인 해석이었다면 이제는 데이터를 기반으로 한 객관적인 해석으로 변화해야 한다는 것이죠. 데이터 붐 시대 이전에는, 비즈니스적 의사결정을 할 때에 리더의 경험, 경력 등에 의존했습니다. 굉장히 불확실했죠. 여기서 불확실하다는 것은 리더의 자질을 의심하는 것이 아닌 눈에 보이지 않는 것을 이야기합니다. 기업은 이런 불확실성을 없애고 싶어 눈에 보이는 객관적인 지표를 찾았고, 그것이 데이터가 된 것이죠.

 

따라서, Digital Transformation은 기업 당면 과제이며, 기업 구성원들이 비즈니스에 데이터를 적극적으로 활용하고 데이터에 대한 내부 문화를 바꿀 수 있도록 노력하는 것입니다.

 

Data Literacy (DL)

Data Literacy는 데이터를 보고 활용할 수 있는 능력을 말합니다. 위에서 말한 Digital Transformation이 기업의 당면 과제였다면, Data Literacy는 기업 구성원의 당면 과제입니다. 즉, 실질적인 의사결정을 하는 메인 리더들만 데이터를 활용할 수 있는 능력을 가진 것이 아닌 구성원 모두가 데이터를 활용할 수 있도록 바뀌어야 한다는 것이죠.

 

예를 들어, 과거에는 다른 부서와 협업하여 어떠한 프로젝트를 진행해야 한다면, 그 부서에 필요 데이터를 요청하고 받은 데이터를 리더에게 전달하여 의사결정을 했습니다. 그러나, 이제는 모든 구성원이 데이터를 활용할 수 있게 바뀌어 리더에게 전달하기 전에 인사이트를 도출하고 전달하여 그 시간을 단축할 수 있게 바뀌고 있습니다. 따라서, 모든 구성원들이 Data Literacy를 갖도록 하는 것이 기업의 Digital Transformation이 될 수 있습니다.

 

이로 인해 얻을 수 있는 장점은, 구성원들이 데이터를 활용할 수 있다는 것은 데이터를 이해할 수 있다는 것이고, 이해할 수 있다는 것은 데이터의 흐름을 이해하는 데에 도움을 줍니다. 따라서, 데이터를 통하여 인사이트를 도출할 때에 도움을 줄 수 있는 팀원들이 늘고 더 나은 결정을 할 확률이 올라갑니다. 또한, 이로 인한 보상까지 주어진다면, 데이터에 대한 회사 내부의 분위기까지 좋아져 Digital Transformation에 더 가까워지는 선순환이 발생합니다.

 

Data Visualization (DV)

Data Visualization은 데이터 시각화를 이야기합니다. 데이터 시각화란, 데이터에 색상과 모양 그리고 사람들의 시선을 끌 수 있는 시각적 요소를 배치하여 데이터를 표현하는 것입니다. 그리고, 이로 인해 얻은 인사이트를 조직 내에 공유하고 협업하는 과정을 말합니다.

 

데이터 시각화가 왜 필요할까요? 데이터 분석가는 자신이 분석한 결과를 팀원들에게 공유해야 합니다. 그리고, 공유받는 팀원 중에는 비전문가도 포함될 수 있습니다. 따라서, 우리는 나열된 데이터를 보여주는 것보다  항상 직관적인 그림을 사용할 필요가 있습니다. 가독성도 높아지고, 비전문가들에게 더욱 쉽게 다가갈 수 있기 때문입니다. 그리고, 태블로는 이런 데이터 시각화에 최적화되어 있습니다. 후에 배우겠지만, 단순히 클릭 몇 번으로도 총합을 바로 그려주거나, 평균을 그려주는 다양한 작업들을 수행할 수 있습니다.

 

데이터 시각화를 통해 Data Literacy를 강화할 수도 있습니다. Data Literacy는 데이터를 이해하고 활용할 수 있는 능력이라고 언급한 바 있습니다. 데이터를 시각화하여 바라본다면, 데이터에 대한 이해도가 높아질 것이고, 이로 인한 인사이트를 도출할 때에도 시각화를 이용한다면 더욱 쉽게 도출할 수 있습니다. 

그래서, Tableau가 뭔데..?

태블로는 데이터를 분석 및 시각화하는 BI(Business Inteligence) 솔루션입니다.

 

BI란,  비즈니스를 운영하면서 얻은 데이터를 수집, 저장, 분석하여 성과를 최적화하는 프로세스와 방법을 포함한 포괄적인 용어입니다. 즉, 데이터를 활용하여 의사 결정을 하고, 비즈니스 목표를 달성하게끔 만드는 모든 과정과 방법을 이야기합니다. 이런 BI를 더 쉽게 하게끔 만들어주는 솔루션으로써 태블로가 개발되었습니다.

 

이전에 데이터를 분석하고 활용하는 것은 전문가의 영역이었기에 IT 부서의 의존도가 매우 높았습니다. 그러나, 이제는 태블로를 통해 그 과정을 쉽게 만들어 IT 부서의 의존도를 낮추는 것이 태블로의 목적입니다. 즉, 모든 구성원들이 데이터를 활용할 수 있도록 도움을 주는 것이죠. 따라서, 많은 기업들이 사용하고 있으며 전 세계의 10만 개 이상의 기업과 수백만명의 사용자가 이용하고 있습니다. 

 

Python, R 등의 프로그램을 통해서도 가능하지 않나? 맞습니다. 하지만, 이는 전문적인 지식을 요구하며 모든 구성원이 위와 같은 프로그램을 다룰 수 있기란 매우 어려운 일입니다. 이에 비해, 태블로는 상대적으로 난이도가 매우 쉬우며, 간단히 데이터를 연결하여 Drag & Drop만으로 시각화할 수 있습니다. 또한, 아래 그림처럼 다양한 시각화를 표현할 수도 있습니다.

 

(실습을 하다 보면, 느끼실 텐데 파이썬에 비해 정말 너무너무 쉽습니다.)

 

최근에는, Ask Data, Explain Data 등의 기술도 지원하고 있습니다. 프롬프트를 이용하여 사용자가 원하는 태스크를 태블로에서 자동으로 처리해 주는 것이죠. 아직은 간단한 태스크밖에 처리하지 못하지만, 기술이 발전한다면 비전문가도 데이터를 분석할 수 있는 세상을 기대할 수 있습니다. (데이터 분석가가 설 자리는 줄어들겠네요 ,,)

 

실습

* 모든 실습 과정을 담지 않고, 개인적으로 중요하다고 생각하는 부분만 적겠습니다.

 

1) 측정값과 차원

태블로를 다룰 때에 기본적으로 알고 있어야 하는 내용입니다. Python을 통해 시각화할 때도 느꼈지만, 이런 기본적인 개념을 완벽히 이해하고 있어야 머릿속에서 그린 그림을 그대로 구현할 수 있습니다.

 

측정값: 아래 테이블로 표시된 부분 중 구분선 기준 아래쪽 필드를 이야기합니다. EX. 매출, 배송기간 등. 

             이 값들은 row (혹은 value)에 해당하는 값입니다.

차원: 아래 테이블로 표시된 부분 중 구분선 기준 위쪽 필드를 이야기합니다. EX. 고객 세그먼트, 고객명 등. 

         이 값들은 column (혹은 group)에 해당하는 값입니다.

 

간단한 예시로, 고객 유형 별 매출합을 표시해 보겠습니다.

 

2) 서식 설정

서식 설정을 통해 단위를 설정하는 것은 다른 사람들에게 보여줄 때 매우 중요합니다. 단위가 없다면, 혼동을 일으킬 수 있기 때문입니다.

 

설정하고자 하는 필드 클릭 - 서식 - 기본값의 숫자 - 통화(사용자지정) - 접두사 / 접미사에서 접미사에 원을 넣어주면, 아래 그림처럼 나옵니다.

 

3) 새로운 필드 생성

계산된 필드 (평균, 합계 등)에 따라 색상을 구분할 필요도 있습니다. 그럴 때에는, 계산된 필드를 생성하고 색상에 적용합니다.

 

계산된 필드 생성: 필드가 있는 영역에 빈 공간에 우클릭 후 계산된 필드 만들기 클릭 - 하고자 하는 태스크 입력 

색상 추가: 생성된 필드를 마크 - 색상에 지정

 

예시)  매출 합계를 기준으로 평균 이상의 매출과 평균 미만의 매출을 보이는 제품 중분류를 구분하고 싶다.

 

이후, 구분선을 추가해 주면 더욱 시각적으로 확인하기 쉽습니다.

 

구분선 추가: 필드가 있던 영역에서 분석 클릭 - 평균 라인을 시트로 Drag - 테이블 참조선에 Drop

 

 

Insight
: 처음으로 태블로를 경험해봤다. 기존에 학업에서 파이썬으로 하던 작업들과 굉장히 유사하다는 생각이 들었다. 결과물 관점에서는 유사하지만, 과정은 훨씬 더 단순화된 것 같다. 파이썬에서 결과물을 만들기 위해 변수를 생성하고, 그 변수를 이용해 그림을 그리는 과정이 "새로운 필드 만들기" 기능과 유사한 것 같다. 다만, 파이썬과 태블로에서의 함수들이 서로 다르기에 함수들을 암기할 필요가 있을 것 같다. 헷갈렸던 것 중 하나는 AVG 함수와 WINDOW_AVG 함수이다. 처음에 AVG 함수는 전체 평균을 구하는 함수인 줄 알고 사용했다. 그러나, 결과물이 내 예상과 다르게 나오는 걸 보고 뭐가 문제인지 찾기 시작했다. 알고보니, WINDOW_AVG 라는 함수가 있었고, 그 함수가 내가 찾던 전체 평균을 구하는 함수였고, AVG함수는 필드별(연도별, 지역별 등) 평균을 구해주는 함수였다. 이렇게 태블로에는 유사한 이름을 가졌지만 기능이 다른 함수들이 있는 것 같다. 많이 해보며 암기할 필요가 있다.

마치며..

오늘은 이렇게 태블로 1주차 강의를 마쳤습니다. 사실 실습 내용이 이것보다 훨씬 많습니다만, 제가 중요하다고 생각하는 부분만 넣어봤습니다. 태블로를 처음 다뤄봤는데, 파이썬 데이터 시각화보다 비교도 안 되게 쉬운 것 같습니다.

 

예를 들어, 레이블을 설정한다고 하면 파이썬으로는 for문을 포함한 4줄 정도의 코딩이 필요하지만 여기서는 그저 클릭 한 번이면 되네요. 이래서 태블로를 많이 사용하는 것 같습니다. 그래도 파이썬으로만 할 수 있는 태스크들이 있으니 너무 태블로에만 의존하는 것은 좋지 않을 것 같습니다.

 

오늘도 읽어주셔서 감사합니다.

 

반응형