Post

11.11 Chapter 13

  • 교재:13.10 단원

선형 판별분석과 이차 판별분석(분류 모델)

  • 판별분석은 로지스틱 회귀분석처럼 질적 철도로 이루어진 종속변수를 분류할 때 쓰이는 분석 기법이다.
  • 성능 면에서 로지스틱 회귀분석보다 우수한 것으로 알려져 있으며, 30% 적은 데이터로도 로지스틱 회귀분석과 유사한 성능을 낼 수 있다.
  • 범주가 두 개일 경우 일반 판별분석 혹은 두 집단 판별분석이라고 부르고, 세 개 이상일 경우 다중 판별분석이라 한다.
  • 범주를 구분하는 결정경계선을 산출하는 방식에 따라 선형 판별 분석과 이차 판별 분석으로 구분한다.

선형 판별 분석

  • 종속변수의 범주 간 분별 정보를 최대한 유지시키면서 차원을 축소시키는 방식으로 데이터의 오분류율이 최소가 되는 축을 찾는다.
  • 집단 내 분산에 비해 집단 간 분산의 차이를 최대화하는 독립변수의 함수를 찾는 것이다.

  • 선형 판별 함수 수식은 아래와 같다. 선형 판별 분석

  • 아래의 그림은 최적의 분류선을 찾는 과정이고 2번 직선이 제일 적합하다고 볼 수 있다. 선형 판별 분석

이차 판별 분석

  • 선형 판별 분석이 공분산 구조가 많이 다른 범주의 데이터를 잘 분류하지 못한다는 단점을 보완한 방법이다.
  • 비선형 분류가 가능하다는 장점이 있지만, 독립변수가 많을 경우 추정해야 하는 모수가 많아져서 선형 판별 분석에 비해 연산량이 크다는 단점이 있다.

서포트 벡터머신(분류모델)

  • 판별 분석과 같이 범주를 나눠줄 수 있는 최적의 구분선을 찾아내어 관측치의 범주를 예측해주는 역사 깊은 모델이다.
  • SVM에서 가장 중요한 결정경계선을 만들어내는 원리를 중심으로 살펴보면 다음과 같다.

선형 판별 분석

  • 위의 그림에서 마진을 최대화하도록 결정경계선을 선택한다.
  • 또한, 기계학습에서 거리를 통해 분류나 회귀 모델을 만들 때는 반드시 데이터 정규화나 표준화를 해줘야 한다.
  • 이를 통해 데이터를 정규화시킨 후 마진값이 최대가 되도록 SVM의 결정경계선을 찾아주면 다음과 같다.

선형 판별 분석

  • 위와 같은 방법으로 결정경계선을 만들기 힘든 경우, 커널 기법이라는 기존의 데이터를 고차원 공간으로 확장하여 새로운 결정경계선을 만드는 방법을 사용한다.

선형 판별 분석

시계열 분석(예측모델)

회귀 기반 시계열 분석

  • 회귀 기반 모델은 예측하고자 하는 시점 t의 값이 종속변수가 된다.
  • 그리고 t 시점에 해당하는 요소들이 독립변수가 된다.
  • 시계열이 비선형적인 경우에는 일반 선형 회귀식으로 표현하는 것은 어렵고, 그렇기에 비선형 추세의 경우 다항회귀를 하여 모델 적합성을 향상시킨다.
  • 회귀 모형 기반의 시계열 분석의 장점 중 하나는 외부 요소를 변수로 추가해 주는 것이 용이하다는 것이다. 이를 통해 부정기적인 노이즈 요소를 최소화할 수 있다.

  • 아래는 자기상관함수 ACF를 이용해 시계열 데이터의 주기성을 수치적으로 확인하고, 특정 시차가 어떠한 영향을 주는지 알 수 있다. 선형 판별 분석

ARIMA 모델

  • 이동평균을 누적한 자기회귀를 활용하여 시계열 분석을 하는 것이다.
  • ARMA(p, q) 모델 자체의 불안정성을 제거하는 기법을 결합한 모델이 ARIMA 모델이다.
  • ARIMA(p, d, q) 모델은 시계열 데이터를 d회 차분하고 p만큼의 과거 값들과 q만큼의 과거 오차 값들을 통해 수치를 예측하고 차분한 값을 다시 원래의 값으로 환산하여 최종 예측값을 산출한다.

연관규칙과 협업 필터링(추천 모델)

  • 전통적 추천의 유형은 다음의 세 가지가 있다.
    1. Editorial and hand curated
    2. Simple aggregates
    3. Tailored to individual users

선형 판별 분석

연관 규칙

  • A라는 제품을 구매한 사람은 B라는 제품도 구매할 확률이 높다는 결과를 이끌어 내는 모델이다.
  • 대표적인 알고리즘으로 다음이 있다.
    1. Apriori
    2. FP-Growth
    3. DHP
  • 품목 간의 연관 관계 계산은 각 품목 조합의 출현 빈도를 이용한다.
  • 다음의 세 가지 핵심 지표를 통해 품목 조합 간의 연관성의 수준을 도출한다.
    1. 지지도: 전체 구매 횟수 중에서 해당 아이템 혹은 조합의 구매가 얼마나 발생하는지
    2. 신뢰도: 아이템 A가 판매됐을 때 B 아이템도 함께 포함되는 조건부 확률
    3. 향상도: 아이템 A의 판매 중 아이템 B가 포함된 비율이, 전체 거래 중 아이템 B가 판매된 비율보다 얼마나 증가했는지를 나타내는 지표

콘텐츠 기반 필터링과 협업 필터링

  • 콘텐츠 기반 필터링
    • 아이템의 속성을 활용하여 추천하는 방법이다.
    • 아이템의 메타 정보를 활용한다.
    • 정형화된 데이터를 통해 기존의 선호와 유사한 아이템을 추천할 수 있다는 장점이 있다.
    • 하지만 모든 제품에 대한 메타 정보를 입력해야 작동하기 때문에 아이템이 많아질 경우 관리가 힘들어진다.
  • 협업 필터링 모델
    • 유사한 성향을 가진 사람들을 찾아내어 그 사람들이 선호하는 아이템을 추천해 주는 방식으로 수행된다.
    • 이는 피어슨 유사도나 코사인 유사도를 통해 구할 수 있다.

인공 신경망(CNN, RNN, LSTM)

  • 기본적인 신경망 구조는 입력층, 은닉층, 그리고 출력층으로 되어 있다. 또한 이러한 신경망 모델을 블랙박스 모형이라고 부른다.
  • 입력층: 독립변수의 값들을 입력하는 역할
  • 은닉층: 입력층에서 들어온 값들을 합산하여 보관하고, 노드들을 연결하는 층 사이에는 가중치들이 있다.

선형 판별 분석

CNN

  • 합성곱 신경망으로 사람의 시신경 구조를 모방한 구조로써 데이터의 특징을 추출하여 패턴을 파악한다.

RNN과 LSTM

  • RNN
    • 자연어처리에서 많이 쓰이는 순환신경망이다.
    • 알고리즘 내부에 순환구조가 들어있다.
  • LSTM
    • 기존 RNN과 유사한 구조를 가지고 있지만 셀 스테이트라는 요소를 가지고 있다.
    • 셀 스테이트는 가중치를 계속 기억할 것인지 말 것인지를 결정해주는 역할을 한다.
    • 이를 통해 가중치가 기억되면, 거리가 먼 과거의 인풋이라 해도 가중치가 그대로 적용된다.
This post is licensed under CC BY 4.0 by the author.