Regression 회귀 - 하나 혹은 그 이상의 독립변수(Feature)들이 종속변수(Label)에 미치는 영향을 추정하는 통계 기법이다. Types of Regression (회귀의 종류) - 회귀의 종류는 기준에 따라 아래와 같이 분류할 수 있다: Criteria Regresison Description 예측변수의 종류 Regression (회귀) - 수치형 데이터를 다루는 회귀이다. Logistic Regression (로지스틱 회귀) - 범주형 데이터를 다루는 회귀이다. 예측변수의 개수 Simple Regression (단순 회귀) - 단일 독립변수에 대해 분석한다. Multiple Regression (다중 회귀) - 2개 이상의 다중 독립변수들에 대해 분석한다. 종속변수의 개수 Univari..
The Birthday Problem (The Birthday Paradox) 생일 문제 (생일 역설) - \(n\)명으로 이루어진 모임에서 생일이 같은 두 명의 사람이 있을 확률을 구하는 문제이다.- 이 문제가 갖는 의의는 아래와 같다: "꽤 많은 사람이 모여야 생일이 같은 한 쌍이 나올 것 같지만,23명의 사람만 모여도 생일이 같은 한 쌍이 나올 확률이 50%가 넘어가며,57명의 사람이 모이면 생일이 같은 한 쌍이 나올 확률이 99%가 넘어간다." - 생일 문제는 일반적인 확률에 대한 인간의 직관이 다른 결과를 보이는 대표적 문제이다. - 이 문제에서 착안한 Birthday Attack은 Cryptographic Hash Function(암호화 해시함수)의 값이 같은 두 값을 찾는데 모든 ..
Chinese Remainder Theorem (CRT) 중국인의 나머지 정리 \(x \equiv 1\; \mathrm{(mod \; 3)},\\ x \equiv 2 \; \mathrm{(mod \; 5)},\\ x \equiv 3 \; \mathrm{(mod \; 7)}\) 을 만족하는 \(x\)를 구하는 문제에서 시작된 정리이다. (3으로 나누었을 때 나머지가 1이고, 5로 나누었을 때 나머지가 2이며, 7로 나누었을 때 나머지가 3인 수를 구하는 문제) - 여기서 3, 5, 7은 "쌍마다 서로소"이다. (3과 5는 서로소이고, 5와 7은 서로소이며, 3과 7은 서로소이다.) - 중국인의 나머지 정리는 어떤 수를 쌍마다 서로소인 n개의 수 각각에 대해 일정한 나머지를 만족하는 수는 그 n개의 최소공배..
Random Walk 랜덤 워크 - 이전 행보와 독립적인 무작위 행보가 임의의 방향으로 진행되는 형태를 지칭한다. - 이산변수와 연속변수 모두 적용할 수 있다. - 분자 운동, 주가의 움직임, 동전 던지기와 같은 것이 랜덤 워크의 일종이다. - Louis Bachelier가 1900년에 발표한 에서 랜덤 워크를 금융 시계열 데이터 모델로 제안한 이후, 랜덤 워크가 금융 분야에서 많이 활용되기 시작했다. * Drunkard's Walk Problem (주정뱅이의 마구잡이 걸음 문제) (URL) [Project] Drunkard's Walk Problem | 주정뱅이의 마구잡이 걸음 문제 Drunkard's Walk Problem 주정뱅이의 마구잡이 걸음 문제 - 주정뱅이가 정중앙 기둥에서 시작하여 기둥으로..
Time Series Data 시계열 데이터 - 일정한 시간 간격으로 측정된 데이터로, 순서를 갖는 데이터를 의미한다. - 시간에 흐름에 따라 값이 변하는 데이터들을 의미한다. - 주가, 온도, 상품판매량, 환율 등이 시계열 데이터에 속한다. - 시계열 데이터는 동일한 데이터라 하더라도, 데이터 범위에 따라 패턴이나 트렌드를 전혀 다르게 보여줄 수 있다. (1년 동안의 주가 데이터와 5년 동안의 주가 데이터는 패턴이나 트렌드가 아예 다르게 보일 수 있다.) * Time Series Properties (시계열적 특성) Trend - 측정값이 시간의 흐름에 따라 증가·감소·반복 등의 일정한 패턴·경향성을 보이는가? Seasonality - 일, 월, 년, 계절 등 일정 시간에 따라 지속해서 반복되는 패턴을..
Statistics Overview 통계학 개요 - 데이터를 구성하고, 요약하고, 해석하는 데 필요한 수학적 이론과 방법들을 연구하는 분야이다. - 통계학에서 데이터를 분석하는 방법으로는 Descriptive Statistics(기술통계)와 Inferential Statistics(추론통계)가 있다. Descriptive Statistics (기술통계) - 데이터의 전체적인 모습을 간략히 요약하는 데 사용되는 기법이다. - 모든 데이터를 보지 않고, 평균값, 최대·최솟값, 표준편차 등을 통해 데이터의 전체를 파악해낸다. Inferential Statistics (추론통계) - 일부 데이터를 이용해 데이터 전체의 모습을 추정하는 기법이다. - 전체집단에서 대표가 되는 일부 데이터들을 추출하여 조사한다. T..
GSAT (General SATisfiability) Problem 일반 논리식 만족 가능성 문제 [Input] Boolean Expression \(\phi\) [Query] \(\phi\)의 Boolean Variable들에 값(T/F)을 잘 할당하여 \(\phi\)의 값이 True가 될 수 있는가? (즉, \(\phi\)이 만족 가능한가?) SAT Problem (SATisfiability; 만족 문제) [Input] CNF Boolean Expression \(\phi\) * CNF (Conjunctive Normal Form; 논리곱 정규형) = POS (Product of Sum) - Clause들이 논리곱(\(\land\))으로 연결되어 있는 형태를 의미한다. - Clause란, Litera..
Modulo Operation 모듈로 연산 - Operand \(A, B\)에 대해, \(A \;\mathrm{mod}\; B\) 는 \(A\)를 \(B\)로 나누었을 때의 나머지를 구하는 연산을 의미한다. ex) \(5 \;\mathrm{mod}\; 3 = 2\) ex) \(79 \;\mathrm{mod}\; 2 = 1\) - 즉, \(A \;\mathrm{mod}\; B\)의 값은 반드시 \(0\) 이상, \(B\) 미만의 값이 도출된다. Congruent Expression (Congruence; 합동식) \(a \equiv b \; \mathrm{(mod \; p)}\) \(\iff a \equiv b \; \mathrm{(p)}\) \(\iff a \; \mathrm{mod} \; p \; = ..