데이터 분석 개요
시각화: 빅데이터 분석 및 탐색적 분석에 필수. 복잡한 분석보다 더 효율적 일수 있다. SNA(사회 연결망) 분석에 자주 활용
공간분석(GIS): 공간적 차원과 관련된 속성들을 시각화
탐색적 자료분석(EDA): 데이터 특징과 내재하는 구조적 관계를 알아내기 위한 기법들을 통칭한다.
- 4가지 주제: 저항성의 강조, 전차계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터 이해, 변수생성, 변수 선택 단계에서 활용
결측값(NA) 처리방법
- 단순대치법
- complete analysis : 결측값의 레코드 삭제, 통계적 추론의 타당성 문제있음
- 평균대치법 : 결측값을 데이터의 평균으로 대치
(- 비조건부 평균대치법 : 관측데이터의 평균으로 대치
-조건부 평균대치법: 회귀분석을 통해 대치)
- 단순확률 대치법: 평균 대치법에서 추정량 표준오차의 과소 추정문제 보완
- 다중대치법 : 대치 - 분석 - 결합
단순대치법을 n번 시행하여 n개의 가상적 자료를 만들어 대치
결측값(NA) 처리 관련 함수
- is.na() : NA값을 조사해 논리값으로 반환(NA = TRUE)
- complete.cases(): NA값을 조사해 논리값으로 반환(NA = FALSE)
- 특정값을 결측처리: Iris[iris$sepal.length==4.0]<-NA 특정값 4.0을 NA 처리
데이터분석 기법의 이해
- 공간분석(GIS): 공간적 차원과 관련된 속성들을 시각화
- 탐색적 자료분석(EDA): 데이터 특징과 내재하는 구조적 관계를 알아내기 위한 기법들을 통칭한다.
- 4가지 주제: 저항성의 강조, 전차계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터 이해, 변수생성, 변수 선택 단계에서 활용
R용어
apply: 행렬에 함수 적용
merge: 두개의 테이블을 하나로 합치는 함수
lapply: 결과를 리스트 형태로 반환
sapply: 벡터 등을 변환
as.vector: 열 방향으로 차례로 원소를 나열하는 벡터 생김
is.na: 결측값 포함되어 있는지 확인(TRUE or FALSE)
rbind: 행결합
cbind: 열결합
데이터마트
데이터 웨어하우스와 사용자 사이의 중간에 위치
CRM관련 업무 중에서 핵심
요약변수와 파생변수
- 요약변수: 수집된 정보를 분석에 맞게 종합한 변수. 데이터마트에서 가장 기본적인 변수, 재활용성 높다.
- 파생변수: 특정 조건 만족하거나 특정함수에 의해 값을 만들어 의미를 부여한 함수. 논리타당성을 갖춰야 한다.
이상값
잘못 입력한 경우 의도하지 않고 분석 목적에 맞지 않는 경우. 꼭 제거 해야하는 것은 아니므로 적절한 판단이 필요하다.
이상값 인식방법 3가지
- ESD : 평균으로부터 3 표준편차 떨어진 값
- 기하평균 -2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차 벗어나는 값
- 사분위수 이용하기
통계자료 획득
- 전수조사: 전체를 다 조사하는 것. 시간과 비용이 많이 소요된다.
- 표본조사: 일부만 추출해서 모집단을 분석한다.
표본추출방법
- 단순랜덤 추출법: 랜덤하게 표본을 뽑는다.
- 계통추출법: 번호를 랜덤하게 부여하고 특정한 간격별로 추출
- 집락추출법: 군집 나눈후 군집별로 단순랜덤
- 층화추출법: 계층을 고루 대표할 수 있도록 표본 추출
표본오차
: 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출하지 못함으로서 발생
표본편의: 표본추출법에서 기인하는 오차를 의미. 확률화로 최소화 하거나 없앨수 있다.
척도구분
- 명목척도: 어느 집단에 속하는지 (성별 등)
- 순서척도: 서열관계가 있을때 (만족도, 학년, 등수..)
- 구간척도: 속성의 양을 측정하는 것. 구간과 구간 사이의 간격이 의미가 있다. (온도, 지수..)
- 비율척도: 절대적인 기준인 0이 존재. 사칙연산 가능 (무게, 나이..)
확률변수
- 이산형: 0이 아닌 확률값을 갖는 셀 수 있는 실수값 (ex. 베르누이, 이항, 기하, 다항, 포아송 분포)
- 연속형: 확률이 함수형태로 주어져 있다고 생각 (ex. 균일, 정규, 지수, t, 카이제곱, f)
추정
: 표본으로부터 모수(모집단의 특징)을 추측하는것
- 점추정: 모수가 특정한 값일 것이라고 추정하는 것
- 구간추정: 모수가 특정한 구간에 있을 것이라고 선언하는 것
가설검정
- 귀무가설 : 증명하고자 하는 가설
- 대립가설 : 귀무가설에 반대되는 가설
- 검정통계량 : 관찰된 표본으로부터 구하는 통계량
- 유의 수준 : 귀무가설이 옳은데도 이를 기각하는 확률의 크기
가설검정 오류
- 제 1종 오류: 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류
- 제 2종 오류: 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류
비모수 검정: 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정. 자료수가 적거나 서열관계인 경우.
왜도: 분포의 비대칭 정도를 나타내는 측도
상관분석: 두 변수간의 관계를 상관계수를 이용하여 알아보는 방법. 상관계수가
1에 가까울 수록 양의 상관관계를,
-1에 가까울수록 음의 상관관계를,
0인 경우 데이터 간의 상관이 없다.
→ cor() or rcorr()함수를 이용해 상관계수를 구할 수 있다.
상관계수의 유형
피어슨: 변수가 등간 척도. 연속형 변수. 두 변수 간 선형관계 크기 측정
스피어만: 변수가 서열척도. 순서형변수, 비모수적 방법, 비선형 관계도 측정가능
회귀분석
: 하나 또는 그 이상 독립변수들이 종속변수에 미치는 영향을 추정하는 통계법
회귀분석의 검토사항
t-검정: 회귀계수들이 유의미한가?
결정계수(R2): 모형이 설명력을 갖추었는가?
F-검정: 모형이 통계적으로 유의미한가?
잔차, 종속변수의 산점도: 모형이 적합한가?
시계열 자료
: 시간의 흐름에 따라 관찰된 값을 뜻한다.
정상시계열
: 모든 시점에 대해 일정한 평균과 분산을 가진다. 특정한 시차의 길이를 갖는 자기 공분산을 측정하더라도 동일한값을 갖는다.
분해시계열
: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
추세요인 | 자료가 오르거나 내리는 추세 |
계절요인 | 고정된 주기(요일, 월, 분기)에 따라 자료가 변하는 경우 |
순환요인 | 경제적, 자연적 이유 없이 알려지지 않은 주기를 갖고 변화 |
불규칙요인 | 위 3가지로 설명할 수 없는 경우 |
다차원척도법(MDS) :객체간 근접성을 시각화하는 통계기법 개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으 로 표현하는 분석방법
계량적 MDS→ 비율척도, 구간척도 데이터 활용
비계량적 MDS→ 순서척도 데이터 활용
주성분분석(PCA)
- 여러 변수들을 상관관계를 이용해 소수의 주성분으로 차원을 축소하는것
- 대략 85%의 분산설명력을 갖게끔 주성분의 수를 결정한다.
Uploaded by
N2T