- 기본 전개:
비즈니스 목표 설정 (사용 데이터 소스) - EDA 과정(기술통계) - 전처리 과정 - 주요 분석 / 시각화 - 인사이트
-> 일관된 전처리 규칙과 이유 포함
프로젝트명: ____________________ | 분석가: __________ | 기간: ____.__.__ ~ ____.__.__
"무엇을 위해, 어떤 데이터를 보는가?"
| 구분 | 체크 항목 | 주요 고려사항 (질문) | 완료(✅) / 비고 |
| 1.1 기획 | 배경 및 이슈 정의 | 현재 겪고 있는 가장 큰 문제나 기회는 무엇인가? | |
| 가설 수립 (Hypothesis) | "A하면 B할 것이다"라는 잠정적 결론이 있는가? | ||
| 이해관계자 & KPI | 누가 의사결정을 하는가? 성공 여부를 가를 핵심 지표는? | ||
| 1.2 데이터 | ERD 및 테이블 관계 | 각 테이블의 Key 값(Join 기준)을 파악했는가? | |
| 데이터 명세 파악 | 분석 기간, 데이터 단위(원, 달러, 개수), 컬럼 의미를 아는가? | ||
| 범주(Category) 파악 | 성별, 지역 등 범주형 데이터의 종류를 확인했는가? |
"데이터의 민낯을 확인하고, 분석 전략을 세운다"
| 구분 | 체크 항목 | 주요 고려사항 (질문) | 완료(✅) / 비고 |
| 2.1 구조 | 데이터 Shape/Type | 행/열 개수는 적절한가? 날짜/숫자 타입이 맞는가? | |
| 결측치(NaN) 현황 | 비어있는 데이터가 얼마나 되며, 무시해도 되는 수준인가? | ||
| 2.2 통계 | 기술 통계량 확인 | 평균, 중앙값, 최대/최소값에 이상한 점은 없는가? | |
| 분포 및 왜곡 확인 | 데이터가 정규분포인가? 특정 구간에 쏠려(Skewed) 있는가? | ||
| 2.3 관계 | 상관관계 분석 | A가 오를 때 B도 오르는가? (인과관계와 혼동 주의) |
"분석에 최적화된 형태로 데이터를 가공한다 (가장 중요)"
| 구분 | 체크 항목 | 주요 고려사항 (질문) | 완료(✅) / 비고 |
| 3.1 정제 | 결합 및 중복 제거 | Join 시 데이터 뻥튀기(중복)는 없는가? | |
| 결측치/이상치 처리 | 삭제했는가, 평균으로 채웠는가? (처리 기준/이유 기록 필수) | ||
| 3.2 변환 | 데이터 타입 변환 | 문자열(Object)을 날짜(Datetime)나 숫자(Int/Float)로 바꿨는가? | |
| 3.3 FE | 날짜 데이터 분해 | 요일, 월, 계절, 공휴일, 시간대 등으로 쪼개 보았는가? | |
| (Feature Engineering) | 구간화 (Binning) | 연령대(20대, 30대..), 가격대, 시간대 등으로 그룹화했는가? | |
| 파생 변수 생성 | 두 변수를 연산(비율, 합계, 차이)하여 새 지표(ex. BMI, 전환율)를 만들었는가? |
"쪼개보고, 비교하고, 파고들어 원인을 찾는다"
| 구분 | 체크 항목 | 주요 고려사항 (질문) | 완료(✅) / 비고 |
| 4.1 분석 | 세그먼트(Group) 비교 | 전체 평균의 함정에 빠지지 않도록 그룹별로 쪼개서 보았는가? | |
| 드릴 다운 (Drill-down) | 결과(Y)에서 원인(X)으로 깊이 파고들었는가? | ||
| 4.2 시각화 | 트렌드 (Line/Area) | 시계열 변화 추세가 잘 드러나는가? | |
| 비중 및 비교 (Bar/Pie) | 구성 비율이나 그룹 간 차이가 명확한가? | ||
| 관계 및 분포 (Scatter/Box) | 이상치나 데이터의 퍼짐 정도가 보이는가? |
"데이터를 행동으로 연결한다"
| 구분 | 체크 항목 | 주요 고려사항 (질문) | 완료(✅) / 비고 |
| 5.1 해석 | 핵심 사실(Fact) 요약 | "매출이 10% 올랐다"와 같은 객관적 사실을 정리했는가? | |
| 입체적 비교 (Context) | 전년 대비(YoY), 경쟁사 대비, 목표 대비 어떠한가? | ||
| 5.2 제안 | 액션 플랜 (Action) | 그래서 "무엇을 해야 하는지" 구체적으로 제안했는가? | |
| 5.3 마무리 | 한계점 및 과제 | 이번 분석에서 부족했던 데이터나 추가 검증이 필요한 부분은? |
댓글 영역