1-3. 스크립트 언어에 의한 특별 분석과 데이터 프레임
데이터 처리와 스크립트 언어
▪ 원시 데이터를 그대로 BI 도구로 읽을 수 없어 '전처리(preprocesccing)'가 필요한 경우가 있음
▪ 이를 위해 자주 사용하는 스크립트 언어는 R과 Python
▪ R은 통계 분석을 위해 개발된 언어
▪ Python은 다양한 라이브러리를 사용할 수 있고, API를 호출하거나 복잡한 문자열 처리에 적합
데이터 프레임, 기초 중의 기초
▪ '데이터 프레임(data frame)'이란 표 형식의 데이터를 추상화한 객체
▪ 데이터 프레임을 사용하여 데이터를 가공과 집계함
SQL 결과를 데이터 프레임으로 활용하기
▪ 데이터 프레임은 쿼리를 실행한 결과로도 만들 수 있음
▪ 복잡한 데이터 처리에는 SQL을 사용하면서 데이터 프레임에 의한 대화형 데이터 처리의 혜택을 얻을 수 있음
1-4. BI 도구와 모니터링
스프레드시트에 의한 모니터링
▪ 모니터링(monitoring): 계획적으로 데이터의 변화를 추적해 나가는 것
▪ 정기적인 일정으로 동일한 집계를 반복하여 추이를 파악
데이터에 근거한 의사 결정
▪ KPI(key performance indicator): 프로젝트의 현황을 파악하기 위한 지표
▪ KPI 모니터링을 통해 다음 행동을 결정
▪ 직감에 의한 결정이 아닌 객관적인 데이터를 근거로 판단하는 것을 '데이터 기반(data-driven) 의사 결정' 이라함
변화를 파악하고 세부 사항을 이해하기
▪ BI 도구는 고속의 집계 엔진을 내장하고 있어 스몰 데이터를 시각화 할때 편리
수작업과 자동화해야 할 것의 경계 판별하기
▪ BI 도구를 사용하기 위해서는 정리된 데이터가 필요
▪ 자신이 알고 싶은 정보를 자신만 보는 경우 이미 있는 데이터를 그대로 사용해 화면을 만드는 것으로도 충분
자동화하려는 경우에는 데이터 마트를 만든다
▪ 자주 업데이트 되거나 다수 사람에게 공유되는 데이터의 경우는 차례로 자동화가 필요
▪ SQL 또는 스크립트로 데이터를 생성하고 그것을 BI 도구로 읽어들임
▪ 구체적인 방법
1) BI 도구에서 직접 데이터 소스에 접속
- 장점: 시스템 구성이 편리
- 단점: BI 도구에서 지원하지 않는 데이터 소스는 접속 할 수 없음
2) 데이터 마트를 준비하고 BI 도구에서 열기
- 장점: 어떤 테이블이라도 자유롭게 만들 수 있음
- 단점: 데이터 마트의 설치 및 운영에 시간이 걸림
3) 웹 방식의 BI 도구를 도입하여 CSV 파일 업로드하기
- 장점: 스크립트로 자유롭게 데이터를 가공
- 단점: 데이터 생성 및 업로드에 프로그래밍이 필요
[참고]
'Data Engineering > 책 리뷰' 카테고리의 다른 글
[빅데이터를 지탱하는 기술] 3. 빅데이터의 분산 처리 (2) (0) | 2023.09.06 |
---|---|
[빅데이터를 지탱하는 기술] 3. 빅데이터의 분산 처리 (1) (0) | 2023.09.05 |
[빅데이터를 지탱하는 기술] 2. 빅데이터의 탐색 (2) (0) | 2023.09.04 |
[빅데이터를 지탱하는 기술] 2. 빅데이터의 탐색 (1) (0) | 2023.09.02 |
[빅데이터를 지탱하는 기술] 1. 빅데이터의 기초 지식 (1) (0) | 2023.08.30 |