상세 컨텐츠

본문 제목

ADSP 개인 스터디

카테고리 없음

by 민도리 2025. 10. 30. 21:03

본문

Ⅰ. 데이터 이해 및 분석 기획

1. 데이터의 기본 이해

  • 개념/본질: 데이터는 가공되지 않은 사실 또는 측정값
  • 유형:
    • 정형 (Structured): 구조화된 형식 (예: RDB 테이블).
    • 반정형 (Semi-Structured): 구조의 유연성 (예: JSON, XML).
    • 비정형 (Unstructured): 구조가 없는 형태 (예: 텍스트, 이미지, 영상).

2. 지식 변환 (SECI Model)

  • 암묵지 (Tacit Knowledge): 개인화되어 내재된 지식 (경험, 노하우).
  • 형식지 (Explicit Knowledge): 문서, 매뉴얼 등 외부로 표출된 지식.
  • SECI 모델: 암묵지와 형식지 간의 변환 4단계.
    • 공동화 (Socialization): 암묵지 → 암묵지 (경험 공유).
    • 표출화 (Externalization): 암묵지 → 형식지 (노하우 문서화).
    • 연결화 (Combination): 형식지 → 형식지 (지식 통합/시스템화).
    • 내면화 (Internalization): 형식지 → 암묵지 (학습을 통해 내재화).

3. DIKW 피라미드 (Hierarchy)

  • 계층 구조: 가치와 의미가 쌓여가는 지식의 단계.
    1. 데이터 (Data): 단순 사실.
    2. 정보 (Information): 데이터에 맥락(Context) 부여.
    3. 지식 (Knowledge): 정보를 활용하여 규칙/패턴 발견.
    4. 지혜 (Wisdom): 지식을 바탕으로 올바른 판단/결정을 내리는 능력.

2. 데이터베이스 개요 (Database Overview)

  • 정의: 데이터의 효율적 저장 및 관리 시스템.
  • 종류 및 특징:
    • 관계형 (RDB): 테이블(Table) 기반. 정규화를 통해 데이터 일관성/무결성 확보.
    • 비관계형 (NoSQL): 유연한 구조. 확장성/유연성에 강점 (빅데이터 환경에 적합).

3. 빅데이터 및 가치

 

  • 정의/범주: 3V - Volume (대용량), Velocity (고속), Variety (다양성).
    • + Veracity (정확성/신뢰성) 및 Value (가치)를 포함하여 5V로 확장되기도 함.
  • 기능(데이터 생성~활용까지의 기능적 영역): 데이터 파이프라인 전반.
    • 수집/이동: 데이터 패턴발견, 예측, 모델링 등 비즈니스 적용
    • 처리/저장: 대량 데이터 실시간 배치, 모으고 이동시키는 기술
    • 분석/활용: 수집 데이터 보관후 분석에 적합하게 정제하고 변환
  • 가치/영향: 비즈니스 및 사회의 결과와 책임 
    • 긍정적 영향: 공공 보건 개선(질병 예측), 교통 효율화, 투명한 정부 운영.
    • 윤리적 영향 (위기): 편향된 알고리즘으로 인한 차별 발생, 개인 정보 유출 및 사생활 침해 등
  • 기본 테크닉 7가지:
    • 패턴 발견: 연관규칙학습, 유형분석(군집).
    • 예측: 분류, 회귀분석, 기계 학습.
    • 기타: 유전자 알고리즘, 시각화.
  • 위기 요인 & 통제:
    • 위험: 사생활 침해, 책임 회피, 데이터 오용/남용.
    • 통제: 동의, 책임, 투명성 확보.
  • 활용 3요소: 데이터, 분석 기술(알고리즘), 인력(데이터 사이언티스트).

 

4. 빅데이터 분석과 전략 인사이트

  • 인사이트: 단순 데이터 나열 의미 있는 발견을 통해 전략 도출에 기여하는 가치 기반 분석 결과.
  • 필요 역량: 데이터 사이언스 (수학, 통계, IT, 비즈니스 통찰력의 융합).

5. 데이터 분석 기획

  • 분석 주제 고려사항 4가지:
    • 대상(Known/Unknown) vs 방법(Known/Unknown) 매트릭스
    • Optimization, Solution, Insight, Discovery.
  • 분석방법론 대표 모델 4가지:
    • 폭포수, 프로토타입, 나선형(Spiral), 계층적 프로세스 모델.
  • 분석 방법론 (CRISP-DM):
    • 단계: 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개.
    • KDD데이터 마이닝에 초점을 둔 방법론.

6. 분석 과제 발굴 및 프로젝트 관리

 

  • 과제 발굴 방식:
    • 하향식 (Top-Down): 문제 탐색 → 문제정의 → 해결 방안 탐색 → 타당성 검토. (목표 기반)
    • 상향식 (Bottom-Up): 지도/비지도 학습 등 데이터 기반 접근. (데이터 기반)
  • 프로젝트 관리 주요 속성: 데이터 양/복잡도, 분석 속도/복잡도, 정확도/정밀도 고려.
  • 분석 마스터플랜 수립:
    • 프레임워크: 분석 ROI (Return On Investment), 데이터 4V.
    • 우선순위: 시급성/난이도 사분면 분석으로 로드맵 수립.
  • 분석 거버넌스 체계:
    • 구성 요소: 원칙, 조직, 프로세스 수립. (분석 활동 관리 기준)
    • 데이터 조직 인력 방안: 집중형, 기능 중심형, 분산형 중 선택하여 조직 구성.

 

  •  

Ⅱ. R 통계 분석 및 프로그래밍

1. R 기본 구성 및 데이터 구조

  • 데이터 구조1 (원자성):
    • 벡터 (Vector): R의 기본 자료형. 문자형, 숫자형, 논리형(Boolean)으로 구성.
  • 데이터 구조2 (복합형):
    • 행렬 (Matrix): 2차원, 단일 타입.
    • 배열 (Array): n차원, 단일 타입.
    • 리스트 (List): 가변 타입 허용 (다양한 데이터 구조 담을 수 있음).
    • 데이터 프레임 (Data Frame): 가장 많이 사용. 행렬과 유사하나 열마다 다른 타입 허용 (테이블 형태).

2. R 기본 문법 및 핸들링

  • 연산자: 대입(<- 또는 =), 비교, 산술, 기타 연산자.
  • 함수: 내장 함수, 통계 함수 (예: mean(), sd()).
  • 데이터 핸들링: 벡터형 변수, 데이터 이름 변경, 추출, 결합, 응용.
  • 제어문: 반복문 (for, while), 조건문 (if, ifelse).
  • 기타: substr(), cov(), cor(), 날짜 자료형.
  • 데이터 구조 변환: 행렬→벡터, 팩터(Factor)→문자열/숫자로 변환, 그래픽 기능 (plot(), hist()).

3. 데이터 마트 및 탐색 (Data Mart & EDA)

  • 데이터 마트: 특정 업무를 위해 구축된 소규모 데이터웨어하우스.
  • 데이터 전처리: reshape 패키지, sqldf 패키지 (SQL 구문 사용), plyrdata.table 패키지 (데이터 조작/요약).
  • 결측값 (Missing Value) 대치: 단순 대치(특정 값), 평균/중앙값 대치, 단순 확률 대치, 다중 대치 (가장 정교).
  • 이상값 (Outlier): ESD(Extreme Studentized Deviate), 4분위수(IQR) 등으로 판단/처리.

Ⅲ. 통계 분석 및 데이터 마이닝

1. 기초 통계 및 확률 분포

  • 모집단/표본: 모집단 (전체 대상), 표본 (일부 추출 대상).
  • 표본 추출 방법: 단순 랜덤, 계통(Systematic), 집락(Cluster), 층화(Stratified) 추출법.
  • 측정 척도: 명목, 순서, 간격, 비율 척도.
  • 통계: 기술 통계 (자료 요약/묘사), 추리 통계 (표본으로 모집단 추정).
  • 기초 통계량: 평균(기대값), 중앙값, 최빈값, 분산, 표준편차, 백분위수, 왜도(Skewness), 첨도(Kurtosis).
  • 상관: 공분산, 상관계수 (두 변수 간 선형 관계의 강도/방향).
  • 확률: 조건부 확률, 독립/배반 사건.
  • 확률 분포:
    • 이산 분포: 베르누이, 이항, 기하, 다항, 포아송 분포.
    • 연속 분포: 균일(일양), 정규(가장 중요), T, 카이제곱, F 분포.

2. 추정 및 가설 검정 (Hypothesis Testing)

  • 추정: 점 추정 (하나의 값), 구간 추정 (신뢰 구간).
  • 가설 검정:
    • 귀무가설($H_0$) / 대립가설($H_1$): 검증 대상.
    • 오류: 일종 오류($\alpha$) (귀무가설이 참인데 기각), 이종 오류($\beta$) (귀무가설이 거짓인데 채택).
    • 유의 수준($\alpha$): 일종 오류를 저지를 최대 허용 확률.
    • 유의 확률 (p-value): 실제 관측된 검정 통계량보다 극단적인 값이 나올 확률. $p-value < \alpha$ 이면 $H_0$ 기각.
    • 검정: 모수적 검정 (분포 가정), 비모수적 검정 (분포 가정 없음).

3. 회귀 및 고급 분석

  • 기술 통계/인과 관계: 히스토그램, 상자 그림, 종속 변수/독립 변수 이해.
  • 분산 분석 (ANOVA): 셋 이상의 그룹 평균 차이 검정.
    • 가정: 정규성, 독립성, 등분산성 (세 가지 가정). 일원/이원 분산분석.
  • 교차 분석 (적합도 검정):
  • 범주형 변수 간 관계 분석. 적합도, 독립성, 동질성 검정.
  • 상관 분석:
    • 피어슨: 선형적 관계 (모수적).
    • 스피어만: 비선형적 관계 (비모수적, 순위 사용).
  • 회귀 분석: 변수 간의 인과 관계 모델링.
    • 종류: 단순/다중/다항/비선형/로지스틱 회귀.
    • 선형 회귀 가정: 선형성, 독립성, 등분산성, 정규성 등.
  • 다중 선형 회귀:
    • 문제: 다중공선성 (독립변수 간 높은 상관관계).
    • 해결: 단계적 변수 선택법 (전진, 후진, 단계 선택). 벌점화 (AIC, BIC) 지표 사용.
  • 정규화 회귀 (Regularization): 과대적합(Overfitting) 방지.
    • 종류: Lasso (변수 제거), Ridge (계수 축소), Elastic Net.
  • 차원 축소:
    • 주성분 분석 (PCA): 데이터 분산을 최대한 보존하는 새로운 축(주성분) 생성.
    • 다차원 척도법 (MDS): 객체 간 거리를 저차원 공간에 시각화 (계량적/비계량적).

4. 시계열 분석 (Time Series)

  • 정상성 조건: 일정한 평균, 일정한 분산, 공분산이 시차에만 의존.
  • 구성 요소: 추세(Trend), 계절(Seasonality), 순환(Cyclical), 불규칙 요인.
  • 모형: 이동평균(MA), 지수평활(ES), 자기회귀(AR) 모형, ARIMA 모형.

Ⅳ. 데이터 마이닝 (Data Mining)

1. 마이닝 개요 및 방법

  • 통계 vs 마이닝: 통계는 가설 검정 중심, 마이닝은 패턴/규칙 발견 중심.
  • 종류: 지도 학습(Supervised), 비지도 학습(Unsupervised).
  • 마이닝 추진 5단계: 목적 정의 → 데이터 준비/가공 → 기법 적용 → 검증.

2. 지도 학습 (분류/예측)

  • 로지스틱 회귀 분석 (Logistic Regression): 분류 모델 (선형 회귀와 달리 결과가 확률).
    • 오즈, 로짓 변환, 시그모이드 함수 사용 (0~1 사이 확률로 변환).
  • 의사 결정 나무 (Decision Tree): 트리 구조를 통한 분류/예측.
    • 활용: 세분화, 분류, 변수 선택, 교호 작용 파악.
    • 불순도 측도: 카이제곱 통계량, 지니 지수, 엔트로피 지수.
  • 앙상블 분석 (Ensemble): 여러 모델을 결합하여 성능 향상.
    • Bagging (독립적 학습), Boosting (순차적 학습, 이전 오류 보완), Random Forest (다수 Decision Tree 사용).
  • 인공신경망 (ANN):
    • 알고리즘: 활성 함수 (Sigmoid, ReLU, Softmax, Tanh), 역전파(Backpropagation).
    • 고려사항: 계층 구조, 과대 적합 문제.

3. 다양한 분류 분석

  • 나이브 베이즈 (Naive Bayes): 조건부 확률 기반, 특징 간 독립성 가정.
  • KNN (K-Nearest Neighbor): 최근접 이웃 기반으로 분류 (거리측도 사용).
  • SVM (Support Vector Machine): 데이터를 분리하는 최적의 초평면 찾기.

4. 분류 모형 성과 평가

  • 평가 지표: 오분류율, 정분율(Accuracy), 민감도(Recall), 정밀도(Precision), F1-스코어.
  • ROC 커브: 민감도1-특이도를 축으로 하여 분류 성능 시각화.
  • 이익 도표 (Gain Chart), 향상도 곡선 (Lift Chart): 마케팅 등 비즈니스 효과 분석.

5. 비지도 학습 (군집/연관 분석)

  • 군집 분석 (Clustering): 유사한 개체들을 그룹화.
    • 거리측도 (연속형): 유클리디안, 표준화, 민코프스키, 캔버라 거리.
    • 거리측도 (범주형): 자카드 지수/거리, 코사인 유사도/거리.
    • 계층적: 최단/최장/중심/평균/와드 연결법.
    • 비계층적: K-Means (가장 대표적), 혼합 분포 군집.
  • 연관 분석 (Association Rule): 항목 간의 동시 발생 패턴 발견.
    • 측도: 지지도(Support), 신뢰도(Confidence), 향상도(Lift).

댓글 영역