4. 랭크, 차원

4-4. 고유 벡터

  • 고윳값, 고유 벡터 = 특성 값, 특성 벡터 = 행렬의 특성
  • 고유 벡터(eigenvector): 벡터에 선형 변환을 취했을 때, 방향은 변하지 않고 크기만 변하는 벡터
  • 고윳값(eigenvalue): 선형 변환 이후 변한 크기, 고유 벡터가 변환되는 크기의 정도

4-5. 특이값 분해

  • 닮음(similar): $P^{-1}AP=B$를 만족하는 가역 행렬 $P$가 존재 시, 정사각 행렬 $A, B$는 서로 닮음
  • 직교 닮음(orthogonally similar): $B=P^{-1}AP$를 만족하는 직교 행렬 $P$가 존재 시, $B$는 $A$에 직교 닮음
  • 직교 대각화(orthogonal diagonalization): 직교 닮음의 경우에서 정사각 행렬 $B$가 대각 행렬 $D$일 경우
  • 직교 대각화가 가능하기 위해 $A$는 반드시 대칭 행렬 ($A^T=A$) 이어야 함 (공분산 행렬 등)

4-6. 고윳값 분해

  • 행렬을 고유 벡터, 고윳값의 곱으로 분해하는 것
  • 직교 벡터 $P$를 고유 벡터를 이용해 만들고 대각 행렬의 원소에 해당하는 것이 고윳값
  • $A=PDP^T$

4-7. 특이값 분해

  • 정사각 행렬을 대상으로 하는 고윳값 분해와 달리 대상 행렬을 ${m}\times{n}$ 행렬로 일반화
  • 인수 분해처럼 행렬의 차원 축소를 위한 도구로 사용
  • 차원 축소를 $n$개의 점을 표현할 수 있는 기존 $p$보다 작은 차원인 $d$ 차원인 부분 공간(subspace)을 찾는 문제
  • 데이터와 부분 공간으로부터의 수직 거리를 최소화(제곱합 $A^TA,AA^T$ 사용)하여 부분 공간을 찾음
  • 특이값(singular value): 행렬 $A$를 제곱한 행렬의 고윳값에 루트를 씌운 값, $\sigma_1=\sqrt{\lambda_1}$
  • $A=U\Sigma{V^T}$
  • 행렬 U의 열벡터는 $AA^T$의 고유 벡터로 구성되는 left singular vector
  • 행렬 V의 열벡터는 $A^TA$의 고유 벡터로 구성되는 right singular vector
  • $\Sigma$의 대각 원소는 행렬 A의 특이값

4-8. 이차식 표현

  • 다항식을 벡터 형태로 나타낼 때 사용하는 방법
  • 대칭 행렬 $W$에 대해 $x^TWx$ 형태로 표현한 식
  • 양정치(positive definite): $x^TWx>0, \text{ for all }x\neq{0}$ (행렬 W의 고윳값이 모두 0보다 큼)
  • 음정치(negative definite): $x^TWx<0, \text{ for all }x\neq{0}$ (행렬 W의 고윳값이 모두 0보다 작음)

4-9. 벡터의 미분

  • 타깃 $y=w^Tx=x^Tw$를 데이터 벡터 x에 대해 미분하면 w가 나옴

5. 확률 변수와 확률 분포

5-1. 확률 변수

  • 확률(probability): 어떤 사건이 일어날 가능성을 수치화시킨 것
  • 모든 확률은 0에서 1 사이에 있으며, 모든 경우인 표본 공간(sample space)의 $P(S)=1$
  • 동시에 발생할 수 없는 사건들에 대해 각 사건의 합의 확률은 개별 확률이 일어날 확률의 합과 같음
  • 확률 변수(random variable): 확률적으로 정해지는 변수, 동전 던지기에서 확률 변수 $X$는 0 또는 1의 값을 가짐
  • 상수(constant): 변수와 다르게 항상 값이 고정된 수, $\pi=3.14$ 등
  • 함수(function): 한 집합의 임의의 한 원소를 다른 집합의 한 원소에 대응시키는 관계

5-2. 확률 분포

  • 확률 변수가 특정값을 가질 확률의 함수
  • 이산 확률 변수: 확률 변수가 가질 수 있는 값을 셀 수 있음
  • 확률 질량 함수: 이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수, $p_X(x)=P(X=x)$
  • 연속 확률 변수: 확률 변수가 가질 수 있는 값의 개수를 셀 수 없음
  • 확률 밀도 함수: 연속 확률 변수의 분포를 나타내는 함수, $P(a\lt{X}\lt{b})=\int_a^bf_X(x)dx$
  • 누적 분포 함수: 주어진 확률 변수가 특정값보다 작거나 같은 확률, $F_X(x)=P(X\in{-\infty,x}$
  • 결합 확률 밀도 함수: 확률 변수 여러 개를 함께 고려하는 확률 분포, $P_{X,Y}(x,y)=P(X=x,Y=y)$
  • 독립 항등 분포: 두 개 이상의 확률 변수를 고려할 때, 각 확률 변수가 통계적으로 독립이고 동일한 확률 분포(iid)를 따름

5-3. 모집단과 표본

  • 모집단(population)은 관심이 있는 대상 전체, 표본(sample)은 모집단의 일부
  • 모집단의 특성을 나타내는 대푯값을 모수(population parameter), 표본의 대푯값(sample statistic)을 표본 통계량

5-4. 평균과 분산

  • 산술 평균: 모든 데이터값을 덧셈한 후 데이터 개수로 나누는 것
  • 모평균: 모집단의 평균, $E(X)=\mu$
  • 표본 평균: 모평균의 추정량, $\bar{X}=\frac{1}{n}\Sigma^n_{i=1}{x_i}$
  • Location parameter: 평균의 변화로, 그래프의 위치 변화를 나타냄
  • 분산: 데이터가 얼마나 퍼져 있는지를 수치화, 평균에 대한 편차 제곱의 평균
  • 모분산: $Var(X)=E[(X-\mu)^2]=\sigma^2=E(X^2)-\mu^2$
  • 표본 분산: $\sigma^2=s^2=\frac{1}{n-1}\Sigma^n_{i=1}(x_i-\bar{x})^2$
  • $x_i-\bar{x}$는 평균에 대한 편차를 의미하며, 편차 제곱의 합을 n-1로 나누는 것은 자유도와 관련
  • 자유도는 변수가 얼마나 자유로운지 나타내는 것으로,
    분산을 구하는 시점에서 이미 표본 평균이 정해져 있어 자유롭게 정할 수 있는 데이터가 n-1개인 것을 의미
  • Scale parameter: 분산과 같이 데이터의 흩어짐 정도를 결정하는 파라미터
  • 표준 편차: 분산의 양의 제곱근으로 정의, 분산 계산 중 제곱으로 커진 결과를 다시 원래 단위로 조정하는 과정

$$E(\Sigma^n_{i=1}X_i)=n\mu_X\text{, }Var(\Sigma^n_{i=1}X_i)=n\sigma^2$$

5-5. 상관관계

  • 공분산(covariance): 두 확률 변수의 상관관계를 나타내는 값, 같은 방향으로 움직이면 양수, 반대의 경우 음수
  • 공분산은 변수 X의 편차와 변수 Y의 편차를 곱한 값의 평균, $Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]$
  • 공분산 행렬: 확률 변수 간 분산, 공분산을 행렬로 표현한 것, 차원 축소 등에서 자주 사용
  • 상관 계수: 공분산을 각 변수의 표준 편차로 나누어 계산

$$Corr(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}$$

5-6. 균일 분포

  • 특정 범위 내에서 확률 분포가 균일한 분포
  • 이산형 균일 분포라면 모든 확률 변수의 확률값이 동일, $X~U(1,N)$
  • 연속형 균일 분포는 확률 변수의 범위가 연속형, $X~U(a,b)$

5-7. 정규 분포

  • 정규 분포 또는 가우시안 분포는 평균을 중심으로 대칭 형태를 띠는 종 모양 분포

$$f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2} \text{, } E(X)=\mu \text{, } Var(X)=\sigma^2$$

  • $\frac{x-\mu}{\sigma}$는 머신러닝에서 쓰이는 데이터 표준화와 일치
  • 표준 정규 분포: 평균이 0, 분산이 1인 정규 분포

5-8. 이항 분포

  • 베르누이 분포, 베르누이 시행: 한 가지 실험에서 결과가 오직 2개인 시행
  • 베르누이 시행의 성공 확률이 p일 때, 실패 확률은 1-p
  • 이항 분포: 성공 확률이 p인 독립적인 베르누이 시행을 n회 했을 때, 성공 횟수 X가 따르는 이산형 확률 분포
  • 다항 분포: 이항 분포를 일반화한 분포, 각 시행에서 나올 수 있는 결과가 m개로 확장

5-9. 최대 가능도 추정

  • 가능도, 우도(likelihood): 파라미터가 주어질 때 해당 표본이 수집될 확률
  • 가능도가 높다는 것은 해당 파라미터가 실젯값일 확률이 높다는 뜻
  • 가능도 함수 $L(\theta|x)=\Pi^n_{i=1}{f(x_i|\theta)}$
  • 로그 함수가 1대1 함수이기 때문에 가능도 함수에 로그 함수를 취할 수 있음 (log-likelihood function)
  • 많은 확률을 곱할 경우 0에 가까워지기 때문에 계산상의 오류를 해결하기 위해 로그를 취함
  • 최대 가능도 추정량(MLE): 파라미터별 가능도를 구해 가장 높은 가능도를 파라미터 추정값으로 사용

5-10. 최대 사후 추정

  • 조건부 확률: 조건이 주어질 때의 확률, $P(A|B)=\frac{P({A}\bigcap{B})}{P(B)}$
  • 두 사건이 독립일 경우, 두 사건이 동시에 발생할 확률($P({A}\bigcap{B}$)은 각 사건이 일어날 확률의 곱과 같음
  • Bayesian: 확률 분포의 파라미터를 상수로 보는 일반적인 빈도주의(Frequentist)와 달리 파라미터를 확률 변수로 보는 방법
  • 베이즈 추정: 파라미터 $\theta$가 확률 변수이므로 사전 확률 밀도 함수 $P(\theta)$를 구할 수 있음
  • $P(\theta,x)=P(x|\theta)P(\theta)$
  • 사후 확률 밀도 함수 $P(\theta|x)\propto{P(x|\theta)P(\theta)}$
  • 최대 사후 추정(MAP): 사후 확률 밀도 함수 $P(\theta|x)$를 최대화하는 파라미터 $\theta$

6. 최적화

6-1. 컨벡스 셋

  • 직선은 시작과 끝이 존재하지 않지만, 선분은 시작과 끝 지점이 존재
  • 아핀 셋(affine set): $wx_1+(1-w)x_2\in{C}$를 만족하는 집합 C
  • 함수 $f:\mathbb{R}^n\rightarrow\mathbb{R}^m$가 존재할 때,
    선형 함수 $f(x)=Wx$,
    아핀 함수 $f(x)=Wx+b$
  • 컨벡스 셋(convex set): 두 점 $x_1,x_2\in{C}$에 대해 아래 조건을 만족하는 집합 C

$$wx_1+(1-w)x_2\in{C}\text{ }(0\le{w}\le{1})$$

  • 컨벡스 셋은 두 점을 잇는 직선을 포함하는 아핀 셋과 달리 두 점 사이의 선분을 포함 (집합의 경계가 존재, 컨벡스 셋 $\subset$ 아핀 셋)
  • 컨벡스 헐(convex hull): 선분이 아닌, 주어진 점들을 포함하는 컨벡스 셋
  • 초평면(hyperplane): 서포트 벡터 머신 알고리즘의 핵심 개념, ${x|w^Tx=b}$
  • 내적값 b가 0일 경우 벡터 w와 벡터 $x-x_0$는 수직
  • 반공간(halfspace): 초평면으로 나뉜 공간의 일부, ${w^Tx\le{b}}$

6-2. 컨벡스 함수

  • 컨벡스 함수: $$f(wx_1+(1-w)x_2 \le wf(x_1)+(1-w)f(x_2)$$
  • 컨벡스 함수에서 등호가 없고 $0 \le w \le 1$이면 strictly 컨벡스라고 말함
  • 콘케이브(concave): 컨벡스의 반대되는 개념 (-f가 컨벡스할 경우의 f)
  • 컨벡스 함수의 예로 지수 함수, 절댓값 함수, 멱함수, 지시 함수, 최대 함수 등이 있음
  • 미분이 가능하다는 말은 그래디언트(gradient) $\nabla f$가 존재한다는 뜻
  • 1차 미분 조건: 최적값 탐색에 사용, $f(x_2) \ge f(x_1)+\nabla{f(x_1)^T}(x_2-x_1)$
  • 그래디언트 값이 0일 때, $x_1$은 함수 f에 대한 전역 최솟값(global minimizer)
  • 2차 미분 조건: 함수 f가 두 번 미분 가능할 경우, $\nabla^2f(x) \ge 0$
  • 얀센의 부등식: $f(wx_1+(1-w)x_2) \le wf(x_1)+(1-w)f(x_2)$