Data Science Overview
데이터 사이언스 개요
- 사람으로부터 데이터를 입력받고 관리하는 데이터베이스 수준을 넘어,
자동으로 대량의 데이터를 수집하고 관리하며, 통계를 산출하고 분석하는 방법을 연구하는 학문 분야이다.
- 데이터 사이언스에서는 다양한 데이터를 다루는 방법론, 프로세스, 알고리즘, 시스템을 다룬다.
- 컴퓨터 과학, 통계학, 경영학이 융합된 학문 분야이다.
- Computing Performance, Networking Performance, ML Technique의 발전으로
데이터 사이언스의 잠재력이 주목받기 시작했다.
- 데이터 사이언스의 탐구 영역은 아래와 같다:
- 가시화
- 통계적 모델링
- 통계적 컴퓨팅
- 데이터 기술
- 데이터 연구
- 데이터 컨설팅
- 실세계 응용
- 과학적 방법론
- 비즈니스 분석에서 데이터 사이언스의 활용 분야는 아래와 같다:
- 장·단기 전략 수립을 통한 의사 결정의 향상
- 경영상의 비효율 문제 개선
- 미래에 대한 예측
- 경영 목표 개선
- 새로운 비즈니스 기회 창출
- 위험 평가 향상
- 데이터 기반 의사 결정 습관
- 데이터 사이언스에 필요한 기반 지식 및 기반 기술은 아래와 같다:
- 인터넷을 통한 효율적 데이터 수집 기술
- 대규모 데이터를 다룰 수 있을 만큼의 프로그래밍 기술
- 데이터 분석을 위한 통계학적 지식
- 머신러닝 관련 지식
- 데이터 분석 결과에 대한 시각화 기술
- 데이터 사이언스에 필요한 도구들은 아래와 같다:
- Python
- 데이터 사이언스에 사용되는 Library들을 지원하는 Open Source Programming Language이다.
- R
- 데이터 분석 및 가시화 기능을 제공하는 Open Source Statistical Programming Language이다.
- SAS
- 통계 연산을 지원하는 높은 안정성과 신뢰성이 보장되는 Statistics Software이다.
- Apache Apark
- 빅데이터 처리 및 분석 도구이다. - TensorFlow
- Deep Learning Algorithm 처리에 사용되는 머신러닝 도구이다.
Data Science Flow
- Define the Problem (문제 정의)
- Collect Data (데이터 수집)
- Manage Data (데이터 관리)
- Exploratory Analysis (탐색적 분석)
- Final Analysis (최종 분석)
- Reporting (보고)
1. Define the Problem (문제 정의)
- 명확한 문제 정의 및 목표값을 설정한다.
- 의뢰자의 요구사항을 명확히 파악한다.
2. Collect Data (데이터 수집)
- 설정된 목표값에 부합하는 데이터들을 데이터베이스 및 웹에서 수집한다.
- 각종 매체를 통해 시장 유용성을 조사한다.
3. Manage Data (데이터 관리)
- 구조화되어 있는 데이터는 데이터베이스에 저장하는 등,
데이터를 적절히 관리 및 저장한다.
4. Exploratory Analysis (탐색적 분석)
- 분류 및 클러스터링을 통해 데이터로부터 패턴을 찾아내고 탐색적 분석을 수행하고 결과를 시각화 한다.
- 머신러닝 기법 혹은 전통적 통계 방식 등 여러 분석 기법을 이용할 수 있다.
- 막대그래프, 파이그래프, 히스토그램, 상관관계 등의 전통적 통계 시각화 방법이나
R, Excel, SAS, SPSS, MATLAB 등으로 Visualization한다.
5. Final Analysis (최종 분석)
- 구체적 비즈니스 질문에 대한 최종적 데이터 분석을 수행한다.
- 예측 모델을 이용한 미세 조정으로 보다 정확한 결과를 얻어낸다.
6. Reporting (보고)
- 최종 분석 결과를 통해 시각적 자료와 워크플로우의 최종 결과가 기술된 보고서를 만들고
의뢰인에게 보고하며 필요한 결정을 권고한다.
Data Analysis (데이터 분석)
- ML을 이용한 데이터 분석은 Classification(분류), Regression(회귀), Clustering(군집화)에 의한 경우가 많다.
- Classification, Regression은 Supervised Learning(지도 학습)에 속하는 ML 기법이고,
Clustering은 Unsupervised Learning(비지도 학습)에 속하는 ML 기법이다.
* Machine Learning Overview (머신러닝 개요) (URL)
Big Data (빅데이터)
- 기존의 DBMS를 이용한 데이터 수집, 저장, 관리 ,분석할 수 있는 범위를 넘어선 엄청난 양의 데이터 집합을 의미한다.
- 이들을 이용하여 가치 있는 정보를 빠르고 효율적으로 추출하고 결과를 분석하는 기술을 통칭하기도 한다.
- 빅데이터가 활용되고 있는 분야는 아래와 같다:
- 유전자 통계
- 시설물 정보
- 주거 및 가족 정보
- 기후환경 정보
- CCTV 정보
- 범죄발생 정보
- 소셜미디어 정보
- 교통 정보
- 빅데이터 기술의 6가지 요소는 아래와 같다:
- Volume (크기)
- PB 수준의 엄청난 양의 데이터를 다룬다.
- Variety (다양성)
- 정형 데이터와 비정형 데이터 모두를 다룬다.
- Velocity (속도)
- 실시간으로 생산되며 빠른 속도로 분석 및 유통된다.
- Veracity (진실성)
- 의사 결정이나 활동의 배경을 고려하여 이용됨으로써 신뢰성이 높다.
- Visualization (시각화)
- 사용자 친화적인 시각적 기능을 통해 모든 잠재력이 활용된다.
- Value (가치)
- 비즈니스에 실현될 궁극적 가치에 중점을 둔다.
- 빅데이터의 요소 기술의 구성과 분류는 아래와 같다:
- 빅데이터 수집
- 필요한 데이터를 검색하여 수집하는 기술이다.
- ETL, RSS, Open API 등
- 빅데이터 공유
- 서로 다른 시스템 간의 데이터를 공유하는 기술이다.
- 멀티 데이터 공유 등
- 빅데이터 저장
- 데이터를 실시간으로 저장하는 기술이다.
- Hadoop 등
- 빅데이터 처리
- 엄청난 양의 데이터를 저장, 수집, 관리, 유통하는 기술이다.
- 실시간 데이터베이스 처리 등
- 빅데이터 분석
- 데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 적용하기 위한 기술이다.
- 통계분석, 데이터마이닝, 예측 분석, SNS 분석 등
- 빅데이터 시각화
- 데이터를 시각적으로 나타내는 기술이다.
- 시간, 분포, 관계, 비교, 공간 시각화, 인포그래픽 등
- 빅데이터의 활용 사례는 아래와 같다:
- 한국석유공사의 국내 유가 예측 서비스
- Google Flu Trends
- 싱가포르 스마트시티
- 주차장 차량인식
- 버스 노선 신설 및 배차 간격 설정
Data Mining (데이터 마이닝)
- 대규모 데이터 집합으로부터 통계적 규칙이나 패턴을 체계적으로 찾아내는 과정을 의미한다.
(데이터 사이언스의 하위 분야이다.)
- 통계학, 인공지능, 머신러능 등의 기법으로 데이터베이스로부터 지식을 발견하고 분석하여
데이터에서 정보를 추출하고, 패턴을 발견하며, 예측 모델을 개발한다.
- 한정된 수의 데이터를 대상으로 추정·검정하는 통계학과 달리,
데이터 마이닝은 대규모 데이터를 분석하여 가치있는 정보를 추출하는데 목적을 둔다.
- 데이터 마이닝의 기능은 아래와 같다:
- 특정 집단에 대한 분류 기능
- 유사한 패턴끼리의 클러스터링 기능
- 동시에 발생한 사건 간의 관계를 정의하는 연관성 정의 기능
- 특정 기간에 걸쳐 연속적으로 발생하는 연속성 관계를 규명하는 기능
- 대규모 데이터로부터 패턴을 추출하여 예측하는 기능
- 데이터 마이닝의 활용 분야는 아래와 같다:
- 기업의 생산 과정에서 불량률을 줄이는 품질관리 분야
- 패턴인식 기법을 적용한 의료 진단 분야
- 고객의 신용을 평가하는 금융 관리 분야
Reference: 처음 만나는 인공지능
(김대수 저, 생능출판사, 2020)
Reference: 인공지능 이론 및 실제
(양기철, 김명철 저; 홍릉과학출판사, 2018)