프리한 데이터 공방
검색
메뉴
고정 헤더 영역
글 제목
메뉴
좋아요
-
댓글달기
-
공유하기
메뉴 레이어
프리한 데이터 공방
메뉴 리스트
홈
태그
방명록
데이터 분석 정보글
(27)
블로그 소개글
(1)
데이터 분석 Tool
(0)
Excel
(0)
Excel 단축키
(0)
Excel 함수
(0)
Excel 전처리
(0)
Python
(4)
Python Basic
(0)
Python 판다스
(3)
Python 웹크롤링
(1)
Google Analytics
(1)
SNS 광고
(0)
매체별 광고
(0)
검색 광고
(0)
SEO 검색엔진 최적화
(4)
SQL
(6)
SQL 기본 개념
(6)
검색 레이어
프리한 데이터 공방
검색 영역
컨텐츠 검색
상세 컨텐츠
본문 제목
ADSP 개인 스터디
카테고리 없음
by
민도리
2025. 10. 30. 21:03
본문
좋아요
-
댓글달기
0
Ⅰ. 데이터 이해 및 분석 기획
1. 데이터의 기본 이해
개념/본질
: 데이터는
가공되지 않은 사실
또는
측정값
유형
:
정형 (Structured)
: 구조화된 형식 (예: RDB 테이블).
반정형 (Semi-Structured)
: 구조의 유연성 (예: JSON, XML).
비정형 (Unstructured)
: 구조가 없는 형태 (예: 텍스트, 이미지, 영상).
2. 지식 변환 (SECI Model)
암묵지 (Tacit Knowledge)
: 개인화되어 내재된 지식 (경험, 노하우).
형식지 (Explicit Knowledge)
: 문서, 매뉴얼 등 외부로 표출된 지식.
SECI 모델
: 암묵지와 형식지 간의 변환 4단계.
공동화 (Socialization)
: 암묵지 → 암묵지 (경험 공유).
표출화 (Externalization)
: 암묵지 → 형식지 (노하우 문서화).
연결화 (Combination)
: 형식지 → 형식지 (지식 통합/시스템화).
내면화 (Internalization)
: 형식지 → 암묵지 (학습을 통해 내재화).
3. DIKW 피라미드 (Hierarchy)
계층 구조
:
가치와 의미
가 쌓여가는 지식의 단계.
데이터 (Data)
: 단순 사실.
정보 (Information)
: 데이터에 맥락(Context) 부여.
지식 (Knowledge)
: 정보를 활용하여 규칙/패턴 발견.
지혜 (Wisdom)
: 지식을 바탕으로 올바른 판단/결정을 내리는 능력.
2. 데이터베이스 개요 (Database Overview)
정의
: 데이터의
효율적 저장 및 관리 시스템
.
종류 및 특징
:
관계형 (RDB)
: 테이블(Table) 기반.
정규화
를 통해 데이터
일관성/무결성
확보.
비관계형 (NoSQL)
: 유연한 구조.
확장성/유연성
에 강점 (빅데이터 환경에 적합).
3. 빅데이터 및 가치
정의/범주
:
3V
-
Volume
(대용량),
Velocity
(고속),
Variety
(다양성).
+ Veracity
(정확성/신뢰성) 및
Value
(가치)를 포함하여
5V
로 확장되기도 함.
기능(데이터 생성~활용까지의 기능적 영역)
: 데이터 파이프라인 전반.
수집/이동:
데이터 패턴발견, 예측, 모델링 등 비즈니스 적용
처리/저장:
대량 데이터 실시간 배치, 모으고 이동시키는 기술
분석/활용:
수집 데이터 보관후 분석에 적합하게 정제하고 변환
가치/영향
: 비즈니스 및 사회의 결과와 책임
긍정적 영향
: 공공 보건 개선(질병 예측), 교통 효율화, 투명한 정부 운영.
윤리적 영향 (위기)
:
편향된 알고리즘
으로 인한 차별 발생,
개인 정보 유출
및 사생활 침해 등
기본 테크닉 7가지
:
패턴 발견
:
연관규칙학습
,
유형분석(군집)
.
예측
:
분류
,
회귀분석
,
기계 학습
.
기타
:
유전자 알고리즘
,
시각화
.
위기 요인 & 통제
:
위험
: 사생활 침해, 책임 회피, 데이터 오용/남용.
통제
: 동의, 책임, 투명성 확보.
활용 3요소
: 데이터, 분석 기술(알고리즘), 인력(데이터 사이언티스트).
4. 빅데이터 분석과 전략 인사이트
인사이트
: 단순 데이터 나열
→
의미 있는 발견
을 통해
전략 도출
에 기여하는
가치 기반 분석 결과
.
필요 역량
:
데이터 사이언스
(수학, 통계, IT, 비즈니스 통찰력의 융합).
5. 데이터 분석 기획
분석 주제 고려사항 4가지
:
대상(Known/Unknown)
vs
방법(Known/Unknown) 매트릭스
Optimization, Solution, Insight, Discovery
.
분석방법론 대표 모델 4가지
:
폭포수, 프로토타입, 나선형(Spiral), 계층적 프로세스 모델
.
분석 방법론 (CRISP-DM)
:
단계
:
업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개
.
KDD
는
데이터 마이닝
에 초점을 둔 방법론.
6. 분석 과제 발굴 및 프로젝트 관리
과제 발굴 방식
:
하향식 (Top-Down)
: 문제 탐색 → 문제정의 → 해결 방안 탐색 → 타당성 검토. (목표 기반)
상향식 (Bottom-Up)
: 지도/비지도 학습 등
데이터 기반
접근. (데이터 기반)
프로젝트 관리 주요 속성
:
데이터 양/복잡도, 분석 속도/복잡도, 정확도/정밀도
고려.
분석 마스터플랜 수립
:
프레임워크
: 분석
ROI (Return On Investment)
, 데이터
4V
.
우선순위
:
시급성/난이도 사분면 분석
으로 로드맵 수립.
분석 거버넌스 체계
:
구성 요소
:
원칙, 조직, 프로세스
수립. (분석 활동 관리 기준)
데이터 조직 인력 방안
:
집중형, 기능 중심형, 분산형
중 선택하여 조직 구성.
Ⅱ. R 통계 분석 및 프로그래밍
1. R 기본 구성 및 데이터 구조
데이터 구조1 (원자성)
:
벡터 (Vector)
: R의
기본 자료형
. 문자형, 숫자형, 논리형(Boolean)으로 구성.
데이터 구조2 (복합형)
:
행렬 (Matrix)
: 2차원,
단일 타입
.
배열 (Array)
: n차원,
단일 타입
.
리스트 (List)
:
가변 타입
허용 (다양한 데이터 구조 담을 수 있음).
데이터 프레임 (Data Frame)
:
가장 많이 사용
. 행렬과 유사하나
열마다 다른 타입
허용 (테이블 형태).
2. R 기본 문법 및 핸들링
연산자
:
대입(<- 또는 =)
, 비교, 산술, 기타 연산자.
함수
: 내장 함수, 통계 함수 (예: mean(), sd()).
데이터 핸들링
: 벡터형 변수, 데이터 이름 변경, 추출, 결합, 응용.
제어문
:
반복문 (for, while)
,
조건문 (if, ifelse)
.
기타
: substr(), cov(), cor(), 날짜 자료형.
데이터 구조 변환
: 행렬→벡터, 팩터(Factor)→문자열/숫자로 변환, 그래픽 기능 (plot(), hist()).
3. 데이터 마트 및 탐색 (Data Mart & EDA)
데이터 마트
:
특정 업무
를 위해 구축된 소규모 데이터웨어하우스.
데이터 전처리
:
reshape
패키지,
sqldf
패키지 (SQL 구문 사용),
plyr
및
data.table
패키지 (데이터 조작/요약).
결측값 (Missing Value) 대치
:
단순 대치
(특정 값),
평균/중앙값 대치
,
단순 확률 대치
,
다중 대치
(가장 정교).
이상값 (Outlier)
:
ESD(Extreme Studentized Deviate)
,
4분위수(IQR)
등으로 판단/처리.
Ⅲ. 통계 분석 및 데이터 마이닝
1. 기초 통계 및 확률 분포
모집단/표본
:
모집단
(전체 대상),
표본
(일부 추출 대상).
표본 추출 방법
:
단순 랜덤
,
계통(Systematic)
,
집락(Cluster)
,
층화(Stratified)
추출법.
측정 척도
:
명목
,
순서
,
간격
,
비율
척도.
통계
:
기술 통계
(자료 요약/묘사),
추리 통계
(표본으로 모집단 추정).
기초 통계량
: 평균(기대값), 중앙값, 최빈값, 분산, 표준편차,
백분위수
,
왜도(Skewness)
,
첨도(Kurtosis)
.
상관
:
공분산
,
상관계수
(두 변수 간 선형 관계의 강도/방향).
확률
:
조건부 확률
,
독립/배반 사건
.
확률 분포
:
이산 분포
:
베르누이, 이항, 기하, 다항, 포아송
분포.
연속 분포
:
균일(일양), 정규(가장 중요), T, 카이제곱, F
분포.
2. 추정 및 가설 검정 (Hypothesis Testing)
추정
:
점 추정
(하나의 값),
구간 추정
(신뢰 구간).
가설 검정
:
귀무가설(
$H_0$
) / 대립가설(
$H_1$
)
: 검증 대상.
오류
:
일종 오류(
$\alpha$
)
(귀무가설이 참인데 기각),
이종 오류(
$\beta$
)
(귀무가설이 거짓인데 채택).
유의 수준(
$\alpha$
)
: 일종 오류를 저지를 최대 허용 확률.
유의 확률 (p-value)
: 실제 관측된 검정 통계량보다 극단적인 값이 나올 확률.
$p-value < \alpha$
이면
$H_0$
기각.
검정
:
모수적 검정
(분포 가정),
비모수적 검정
(분포 가정 없음).
3. 회귀 및 고급 분석
기술 통계/인과 관계
:
히스토그램
,
상자 그림
,
종속 변수/독립 변수
이해.
분산 분석 (ANOVA)
: 셋 이상의 그룹 평균 차이 검정.
가정
:
정규성
,
독립성
,
등분산성
(세 가지 가정).
일원/이원
분산분석.
교차 분석 (적합도 검정)
:
범주형 변수 간 관계 분석.
적합도, 독립성, 동질성
검정.
상관 분석
:
피어슨
:
선형적
관계 (모수적).
스피어만
:
비선형적
관계 (비모수적, 순위 사용).
회귀 분석
: 변수 간의
인과 관계 모델링
.
종류
:
단순/다중/다항/비선형/로지스틱
회귀.
선형 회귀 가정
:
선형성, 독립성, 등분산성, 정규성
등.
다중 선형 회귀
:
문제
:
다중공선성
(독립변수 간 높은 상관관계).
해결
:
단계적 변수 선택법
(전진, 후진, 단계 선택).
벌점화
(AIC, BIC) 지표 사용.
정규화 회귀 (Regularization)
:
과대적합(Overfitting)
방지.
종류
:
Lasso
(변수 제거),
Ridge
(계수 축소),
Elastic Net
.
차원 축소
:
주성분 분석 (PCA)
: 데이터 분산을 최대한 보존하는
새로운 축(주성분)
생성.
다차원 척도법 (MDS)
: 객체 간
거리
를 저차원 공간에 시각화 (계량적/비계량적).
4. 시계열 분석 (Time Series)
정상성 조건
:
일정한 평균
,
일정한 분산
,
공분산이 시차에만 의존
.
구성 요소
:
추세(Trend)
,
계절(Seasonality)
,
순환(Cyclical)
, 불규칙 요인.
모형
:
이동평균(MA)
,
지수평활(ES)
,
자기회귀(AR)
모형,
ARIMA
모형.
Ⅳ. 데이터 마이닝 (Data Mining)
1. 마이닝 개요 및 방법
통계 vs 마이닝
: 통계는
가설 검정
중심, 마이닝은
패턴/규칙 발견
중심.
종류
:
지도 학습(Supervised)
,
비지도 학습(Unsupervised)
.
마이닝 추진 5단계
: 목적 정의 → 데이터 준비/가공 →
기법 적용
→ 검증.
2. 지도 학습 (분류/예측)
로지스틱 회귀 분석 (Logistic Regression)
:
분류
모델 (선형 회귀와 달리 결과가 확률).
오즈
,
로짓 변환
,
시그모이드 함수
사용 (0~1 사이 확률로 변환).
의사 결정 나무 (Decision Tree)
:
트리 구조
를 통한 분류/예측.
활용
: 세분화, 분류, 변수 선택, 교호 작용 파악.
불순도 측도
:
카이제곱 통계량
,
지니 지수
,
엔트로피 지수
.
앙상블 분석 (Ensemble)
: 여러 모델을 결합하여 성능 향상.
Bagging
(독립적 학습),
Boosting
(순차적 학습, 이전 오류 보완),
Random Forest
(다수 Decision Tree 사용).
인공신경망 (ANN)
:
알고리즘
:
활성 함수
(Sigmoid, ReLU, Softmax, Tanh),
역전파(Backpropagation)
.
고려사항
:
계층 구조
,
과대 적합
문제.
3. 다양한 분류 분석
나이브 베이즈 (Naive Bayes)
:
조건부 확률
기반, 특징 간
독립성 가정
.
KNN (K-Nearest Neighbor)
:
최근접 이웃
기반으로 분류 (거리측도 사용).
SVM (Support Vector Machine)
: 데이터를 분리하는
최적의 초평면
찾기.
4. 분류 모형 성과 평가
평가 지표
:
오분류율
,
정분율(Accuracy)
,
민감도(Recall)
,
정밀도(Precision)
,
F1-스코어
.
ROC 커브
:
민감도
와
1-특이도
를 축으로 하여
분류 성능
시각화.
이익 도표 (Gain Chart)
,
향상도 곡선 (Lift Chart)
: 마케팅 등 비즈니스 효과 분석.
5. 비지도 학습 (군집/연관 분석)
군집 분석 (Clustering)
: 유사한 개체들을 그룹화.
거리측도 (연속형)
:
유클리디안
,
표준화
,
민코프스키
,
캔버라
거리.
거리측도 (범주형)
:
자카드 지수/거리
,
코사인 유사도/거리
.
계층적
:
최단/최장/중심/평균/와드
연결법.
비계층적
:
K-Means
(가장 대표적),
혼합 분포 군집
.
연관 분석 (Association Rule)
: 항목 간의
동시 발생 패턴
발견.
측도
:
지지도(Support)
,
신뢰도(Confidence)
,
향상도(Lift)
.
공유하기
게시글 관리
프리한 데이터 공방
저작자표시
비영리
변경금지
(새창열림)
댓글 영역
댓글
개
댓글 쓰기
추가 정보
인기글
최신글
티스토리툴바
댓글 영역