11.11 Chapter 13

Posted Nov 11, 2024 Updated Nov 11, 2024

By thddlsgur0105

10 min read

11.11 Chapter 13

교재:13.10 단원

선형 판별분석과 이차 판별분석(분류 모델)

판별분석은 로지스틱 회귀분석처럼 질적 철도로 이루어진 종속변수를 분류할 때 쓰이는 분석 기법이다.
성능 면에서 로지스틱 회귀분석보다 우수한 것으로 알려져 있으며, 30% 적은 데이터로도 로지스틱 회귀분석과 유사한 성능을 낼 수 있다.
범주가 두 개일 경우 일반 판별분석 혹은 두 집단 판별분석이라고 부르고, 세 개 이상일 경우 다중 판별분석이라 한다.
범주를 구분하는 결정경계선을 산출하는 방식에 따라 선형 판별 분석과 이차 판별 분석으로 구분한다.

선형 판별 분석

종속변수의 범주 간 분별 정보를 최대한 유지시키면서 차원을 축소시키는 방식으로 데이터의 오분류율이 최소가 되는 축을 찾는다.
집단 내 분산에 비해 집단 간 분산의 차이를 최대화하는 독립변수의 함수를 찾는 것이다.
선형 판별 함수 수식은 아래와 같다.
아래의 그림은 최적의 분류선을 찾는 과정이고 2번 직선이 제일 적합하다고 볼 수 있다.

이차 판별 분석

선형 판별 분석이 공분산 구조가 많이 다른 범주의 데이터를 잘 분류하지 못한다는 단점을 보완한 방법이다.
비선형 분류가 가능하다는 장점이 있지만, 독립변수가 많을 경우 추정해야 하는 모수가 많아져서 선형 판별 분석에 비해 연산량이 크다는 단점이 있다.

서포트 벡터머신(분류모델)

판별 분석과 같이 범주를 나눠줄 수 있는 최적의 구분선을 찾아내어 관측치의 범주를 예측해주는 역사 깊은 모델이다.
SVM에서 가장 중요한 결정경계선을 만들어내는 원리를 중심으로 살펴보면 다음과 같다.

위의 그림에서 마진을 최대화하도록 결정경계선을 선택한다.
또한, 기계학습에서 거리를 통해 분류나 회귀 모델을 만들 때는 반드시 데이터 정규화나 표준화를 해줘야 한다.
이를 통해 데이터를 정규화시킨 후 마진값이 최대가 되도록 SVM의 결정경계선을 찾아주면 다음과 같다.

위와 같은 방법으로 결정경계선을 만들기 힘든 경우, 커널 기법이라는 기존의 데이터를 고차원 공간으로 확장하여 새로운 결정경계선을 만드는 방법을 사용한다.

시계열 분석(예측모델)

회귀 기반 시계열 분석

회귀 기반 모델은 예측하고자 하는 시점 t의 값이 종속변수가 된다.
그리고 t 시점에 해당하는 요소들이 독립변수가 된다.
시계열이 비선형적인 경우에는 일반 선형 회귀식으로 표현하는 것은 어렵고, 그렇기에 비선형 추세의 경우 다항회귀를 하여 모델 적합성을 향상시킨다.
회귀 모형 기반의 시계열 분석의 장점 중 하나는 외부 요소를 변수로 추가해 주는 것이 용이하다는 것이다. 이를 통해 부정기적인 노이즈 요소를 최소화할 수 있다.
아래는 자기상관함수 ACF를 이용해 시계열 데이터의 주기성을 수치적으로 확인하고, 특정 시차가 어떠한 영향을 주는지 알 수 있다.

ARIMA 모델

이동평균을 누적한 자기회귀를 활용하여 시계열 분석을 하는 것이다.
ARMA(p, q) 모델 자체의 불안정성을 제거하는 기법을 결합한 모델이 ARIMA 모델이다.
ARIMA(p, d, q) 모델은 시계열 데이터를 d회 차분하고 p만큼의 과거 값들과 q만큼의 과거 오차 값들을 통해 수치를 예측하고 차분한 값을 다시 원래의 값으로 환산하여 최종 예측값을 산출한다.

연관규칙과 협업 필터링(추천 모델)

전통적 추천의 유형은 다음의 세 가지가 있다.
1. Editorial and hand curated
2. Simple aggregates
3. Tailored to individual users

연관 규칙

A라는 제품을 구매한 사람은 B라는 제품도 구매할 확률이 높다는 결과를 이끌어 내는 모델이다.
대표적인 알고리즘으로 다음이 있다.
1. Apriori
2. FP-Growth
3. DHP
품목 간의 연관 관계 계산은 각 품목 조합의 출현 빈도를 이용한다.
다음의 세 가지 핵심 지표를 통해 품목 조합 간의 연관성의 수준을 도출한다.
1. 지지도: 전체 구매 횟수 중에서 해당 아이템 혹은 조합의 구매가 얼마나 발생하는지
2. 신뢰도: 아이템 A가 판매됐을 때 B 아이템도 함께 포함되는 조건부 확률
3. 향상도: 아이템 A의 판매 중 아이템 B가 포함된 비율이, 전체 거래 중 아이템 B가 판매된 비율보다 얼마나 증가했는지를 나타내는 지표

콘텐츠 기반 필터링과 협업 필터링

콘텐츠 기반 필터링
- 아이템의 속성을 활용하여 추천하는 방법이다.
- 아이템의 메타 정보를 활용한다.
- 정형화된 데이터를 통해 기존의 선호와 유사한 아이템을 추천할 수 있다는 장점이 있다.
- 하지만 모든 제품에 대한 메타 정보를 입력해야 작동하기 때문에 아이템이 많아질 경우 관리가 힘들어진다.
협업 필터링 모델
- 유사한 성향을 가진 사람들을 찾아내어 그 사람들이 선호하는 아이템을 추천해 주는 방식으로 수행된다.
- 이는 피어슨 유사도나 코사인 유사도를 통해 구할 수 있다.

인공 신경망(CNN, RNN, LSTM)

기본적인 신경망 구조는 입력층, 은닉층, 그리고 출력층으로 되어 있다. 또한 이러한 신경망 모델을 블랙박스 모형이라고 부른다.
입력층: 독립변수의 값들을 입력하는 역할
은닉층: 입력층에서 들어온 값들을 합산하여 보관하고, 노드들을 연결하는 층 사이에는 가중치들이 있다.

CNN

합성곱 신경망으로 사람의 시신경 구조를 모방한 구조로써 데이터의 특징을 추출하여 패턴을 파악한다.

RNN과 LSTM

RNN
- 자연어처리에서 많이 쓰이는 순환신경망이다.
- 알고리즘 내부에 순환구조가 들어있다.
LSTM
- 기존 RNN과 유사한 구조를 가지고 있지만 셀 스테이트라는 요소를 가지고 있다.
- 셀 스테이트는 가중치를 계속 기억할 것인지 말 것인지를 결정해주는 역할을 한다.
- 이를 통해 가중치가 기억되면, 거리가 먼 과거의 인풋이라 해도 가중치가 그대로 적용된다.

ML, Advanced_Session

This post is licensed under CC BY 4.0 by the author.