[빅데이터를 지탱하는 기술] 1. 빅데이터의 기초 지식 (2)

2023. 9. 1. 14:48·Data Engineering/책 리뷰

1-3. 스크립트 언어에 의한 특별 분석과 데이터 프레임

데이터 처리와 스크립트 언어

▪ 원시 데이터를 그대로 BI 도구로 읽을 수 없어 '전처리(preprocesccing)'가 필요한 경우가 있음 

▪ 이를 위해 자주 사용하는 스크립트 언어는 R과 Python

▪ R은 통계 분석을 위해 개발된 언어

▪ Python은 다양한 라이브러리를 사용할 수 있고, API를 호출하거나 복잡한 문자열 처리에 적합

데이터 프레임, 기초 중의 기초 

데이터 프레임 예시

 

▪ '데이터 프레임(data frame)'이란 표 형식의 데이터를 추상화한 객체 

▪ 데이터 프레임을 사용하여 데이터를 가공과 집계함

SQL 결과를 데이터 프레임으로 활용하기

SQL를 사용하여 데이터 프레임 변환

 

▪ 데이터 프레임은 쿼리를 실행한 결과로도 만들 수 있음

▪ 복잡한 데이터 처리에는 SQL을 사용하면서 데이터 프레임에 의한 대화형 데이터 처리의 혜택을 얻을 수 있음

1-4. BI 도구와 모니터링 

스프레드시트에 의한 모니터링

▪ 모니터링(monitoring): 계획적으로 데이터의 변화를 추적해 나가는 것

▪ 정기적인 일정으로 동일한 집계를 반복하여 추이를 파악 

데이터에 근거한 의사 결정 

업계별 KPI의 예

 

▪ KPI(key performance indicator): 프로젝트의 현황을 파악하기 위한 지표
▪ KPI 모니터링을 통해 다음 행동을 결정

▪ 직감에 의한 결정이 아닌 객관적인 데이터를 근거로 판단하는 것을 '데이터 기반(data-driven) 의사 결정' 이라함

변화를 파악하고 세부 사항을 이해하기 

BI 도구의 예

 

▪ BI 도구는 고속의 집계 엔진을 내장하고 있어 스몰 데이터를 시각화 할때 편리

수작업과 자동화해야 할 것의 경계 판별하기 

▪ BI 도구를 사용하기 위해서는 정리된 데이터가 필요

▪ 자신이 알고 싶은 정보를 자신만 보는 경우 이미 있는 데이터를 그대로 사용해 화면을 만드는 것으로도 충분

자동화하려는 경우에는 데이터 마트를 만든다

▪ 자주 업데이트 되거나 다수 사람에게 공유되는 데이터의 경우는 차례로 자동화가 필요

▪ SQL 또는 스크립트로 데이터를 생성하고 그것을 BI 도구로 읽어들임

▪ 구체적인 방법

 

   1) BI 도구에서 직접 데이터 소스에 접속

      - 장점: 시스템 구성이 편리

      - 단점: BI 도구에서 지원하지 않는 데이터 소스는 접속 할 수 없음

 

   2) 데이터 마트를 준비하고 BI 도구에서 열기

      - 장점: 어떤 테이블이라도 자유롭게 만들 수 있음 

      - 단점: 데이터 마트의 설치 및 운영에 시간이 걸림

 

   3) 웹 방식의 BI 도구를 도입하여 CSV 파일 업로드하기 

      - 장점: 스크립트로 자유롭게 데이터를 가공

      - 단점: 데이터 생성 및 업로드에 프로그래밍이 필요

 

 

[참고]

빅데이터를 지탱하는 기술(니시다 케이스케)

 

 

'Data Engineering > 책 리뷰' 카테고리의 다른 글

[빅데이터를 지탱하는 기술] 3. 빅데이터의 분산 처리 (2)  (0) 2023.09.06
[빅데이터를 지탱하는 기술] 3. 빅데이터의 분산 처리 (1)  (0) 2023.09.05
[빅데이터를 지탱하는 기술] 2. 빅데이터의 탐색 (2)  (0) 2023.09.04
[빅데이터를 지탱하는 기술] 2. 빅데이터의 탐색 (1)  (0) 2023.09.02
[빅데이터를 지탱하는 기술] 1. 빅데이터의 기초 지식 (1)  (0) 2023.08.30
'Data Engineering/책 리뷰' 카테고리의 다른 글
  • [빅데이터를 지탱하는 기술] 3. 빅데이터의 분산 처리 (1)
  • [빅데이터를 지탱하는 기술] 2. 빅데이터의 탐색 (2)
  • [빅데이터를 지탱하는 기술] 2. 빅데이터의 탐색 (1)
  • [빅데이터를 지탱하는 기술] 1. 빅데이터의 기초 지식 (1)
Doodo
Doodo
  • Doodo
    Doodo
    Doodo
  • 전체
    오늘
    어제
    • 분류 전체보기 (192)
      • CS (17)
        • Network (11)
        • Database (6)
      • Language (19)
        • Python (11)
        • SQL (6)
        • R (2)
      • Linux (17)
      • DevOps (35)
        • Git (7)
        • Docker (8)
        • Kubernetes (9)
        • GCP (4)
        • AWS (7)
      • Data Engineering (50)
        • 책 리뷰 (14)
        • Airflow (35)
        • Redis (1)
      • DBMS (21)
        • CUBRID (21)
      • ML & DL (2)
      • 코딩테스트 (24)
      • 프로젝트 (7)
        • 서울시 대기현황 데이터 적재 프로젝트 (4)
        • CryptoStream (3)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
Doodo
[빅데이터를 지탱하는 기술] 1. 빅데이터의 기초 지식 (2)
상단으로

티스토리툴바