[데이터 분석을 위한 SQL 레시피] 4강 - 데이터

목차

1) 데이터의 종류


2) 업무 데이터


3) 로그 데이터


4) 두 데이터를 사용해서 생성되는 가치

 

4강 데이터

1) 데이터의 종류

  • 업무 데이터 = 업무에 필요한 데이터, 서비스와 시스템을 운용하기 위한 목적으로 구축된 데이터베이스에 존재하는 데이터, 대부분 갱신형 데이터
    • 트랜잭션 데이터
    구매 데이터, 리뷰데이터, 게임 플레이 데이터처럼 서비스와 시스템을 통해 사용자의 행동을 기록한 데이터              회원 ID와 상품ID로 저장된 경우가 많으므로, 회원의 성별, 주소지 등을 곧바로 추출할 수가 없음. 이 데이터 기반으로 리포트 만들려면 이어서 설명하는 마스터 데이터 필요
    • 마스터 데이터

       카테고리 마스터, 상품 마스터처럼 서비스와 시스템이 정의하고 있는 데이터

 

  • 로그 데이터

= 업무에 직접적으로 필요하지는 않지만 분석을 위해 추출해야 하는 데이터

통계 또는 분석을 주 용도로 설계된 데이터, 특정 태그를 포함해서 전송된 데이터, 특정 행동을 서버 측에 출력한 데이터

누적형 데이터! = 출력 시점의 정보를 축적해두는 것. 로그 출력 이후 가격 변경되거나 사용자 정보 변경되어도 기존 데이터 수정 안함.

 

2) 업무 데이터

  • 업무 데이터의 특징
    • 데이터의 정밀도가 높다.
    문제가 발생하면, 트랜잭션과 롤백 기능을 사용해 문제 제거가능. → 데이터 정합성 보증(정확한 값 보증)
    • 갱신형 데이터
    매일 다양한 데이터 추가, 갱신, 제거 실행
    • 다뤄야 하는 테이블의 수가 많다.
    대부분 RDB 사용 → 확장성 배제, 정합성 유지, 데이터 저장(정규화), 하나의 테이블만으로는 파악 어려움. 여러 테이블 결합해야함.

 

  • 업무 데이터 축적 방법
    • 모든 데이터 변경하기
    날짜를 기반으로 누적되는 경우 아니라면, 데이터 전체를 한꺼번에 바꾸어 최신 상태로 만듦.
    • 모든 레코드의 스냅샷을 날짜별로 저장하기
    • 어제와의 변경 사항만 누적하기
    변경/삭제 없이 계속 추가만 일어나는 테이블의 경우

 

  • 업무 데이터 다루기
    • 매출액, 사용자 수처럼 정확한 값을 요구할 경우 활용하기
    업무데이터는 트랜잭션 기능으로 정합성 보장, 로그 데이터는 전송방법에 따라 중간 손실이 발생할수도.
    • 서비스의 방문 횟수, 페이지뷰, 사용자 유도 등의 데이터 분석에는 사용할 수 없음.
    하나하나 저장하면 서비스 처리에 영향 줄 수 있어서, 이러한 분석 위해선 로그데이터 사용
    • 데이터 변경이 발생할 수 있으므로 추출 시점에 따라 결과가 변화할 수 있음.

 

3) 로그 데이터

  • 로그 데이터 특징
    • 시간, 사용자 엔드포인트, IP, URL, 레퍼러, Cookie 등의 정보 저장하기
    서비스 처리에 영향 거의 없음.
    • 추출 방법에 따라 데이터의 정밀도가 달라짐
    어떻게 추출하는지, 집계 대상 데이터가 어떠한 상태로 있는지 파악해야함
    • 계속 기록을 추가하는 것뿐이므로 과거 데이터가 변경되지는 않음

 

  • 로그 데이터 축적방법
    • 태그, SDK를 통해 사용자 장치에서 데이터를 전송하고 출력하기(비컨형태)
    HTML에 특정 태그 집어넣고 데이터를 전송하는 형식을 나타내는 방법                                                                        웹사이트에서 자바스크립트 통해 로그데이터 전송하는 경우, 자바스크립트 해결할 수 없는 크롤러 또는 브라우저의 데이터는 로그로 출력되지 않음.  
    • 서버에서 데이터를 추출하고 출력하기(서버형태)
    서버의 요청이 있을 때 출력. 크롤러의 접근도 출력(막아도, 매일 새로운 크롤러 나오므로 막을 수 없음), 의도치 않은 로그 제거하는 과정을 반드시 거쳐야함
  • 로그 데이터 다루기
    • 사이트 방문횟수, 페이지뷰, 사용자 유도 상황을 집계하고 분석할 때 주로 사용
    • 최신 상태를 고려한 분석에는 적합하지 않음
    로그 출력 이후 데이터의 변경 내용을 모두 고려해서 분석할 때는 별도의 데이터 가공 필요
    • 계속 기록을 누적하는 형태이므로 추출 결과가 변할 가능성이 적음
    로그 데이터는 변경, 제거되지 않으므로!
    • 데이터의 정확도는 업무 데이터에 비해 낮음
    사용자 누락가능성, 크롤러의 로그 포함 가능성. 로그데이터는 출력 이후 변경 하지 않고 누적할 뿐임.

 

4) 두 데이터를 사용해서 생성되는 가치

  • 업무 데이터와 로그 데이터의 가치
    • 업무 데이터
    매출액 추이, 어떤 상품이 인기 있는지, 어떤 상품이 계절성을 가지는지, 특정 시간에 많이 팔리는지 등 과거의 경향을 파악하면 무엇을 해야하는지 알 수 있음.
    • 로그 데이터
    페이지뷰, 액션, 해당 데이터에 포함된 값(레퍼러, 사용자 에이전트, 사용자 정의 변수 등)을 집계하고 출력해줌. 원하는 리포트를 자유롭게 정의 가능. 접근 분석 도구의 제한 없이 원하는 결과 도출 가능

 

  • 두 데이터를 사용했을 때 발생하는 새로운 가치

로그 데이터 → 웹사이트에서 행동을 기록할 때.

업무 데이터 → 웹사이트, 오프라인 데이터 사용가능.

⇒ 웹사이트의 행동이 오프라인의 행동에 어떠한 영향 미치는지 조사 가능.

ex) 특정 미디어 또는 광고로 유입된 사용자가 오프라인에서 계약할 가능성이 더 높다면, 해당 미디어와 광고를 더 활용할 수 있음.