<머리말>
통계학과 계량경제학이 양적 분석의 중심을 이루던 시대가 있었다. 데이터와 연산 자원이 확대되면서 머신러닝이 그 영역을 넓혔고, 딥러닝의 발전으로 또 한 차례 전환기를 맞았다. 여기에 생성형 AI가 더해지며 분석 과정 자체가 변화하고 있다. 변화는 AI 기술만의 것이 아니다. 데이터 사이언스라는 이름으로 모인 방법론과 도구, 역할과 워크플로우가 함께 재편되고 있다. 어떤 문제에 어떤 방법을 적용해야 하는지, 무엇을 기본기로 삼아야 하는지 현장에서는 혼란이 있다. 앞으로의 방향을 단정할 수는 없으나, 지금은 현재의 방법론을 정리하고 각 방법의 역할과 한계를 분명히 할 시점이라 판단된다.
이 책은 통계학, 머신러닝, 딥러닝을 대체 관계로 보지 않는다. 세 분야는 서로 다른 강점과 제약을 가지며 데이터의 크기와 형태, 분석 목적, 그리고 현장의 제약 조건에 따라 선택되거나 함께 활용된다. 중요한 것은 유행하는 도구가 아니라 그 방법이 왜 필요한지, 결과를 어떻게 해석해야 하는지를 이해하는 것이다.
이에 따라 이 책은 원리와 직관을 먼저 설명하고, 구현과 적용으로 나아가도록 구성했다. 수식은 피하지 않되 증명보다는 의미와 해석에 중점을 두었다. 전문 연구자와 대학원생은 물론 학부생과 실무자도 스스로의 속도에 맞춰 학습할 수 있도록 난이도를 조정했다.
과거에 고급 방법론은 대학원 과정에서 다루어지는 것이 일반적이었다. 개념 이해뿐만 아니라 구현 자체가 큰 장벽이었기 때문이다. 그러나 현재는 상황이 달라졌다. 라이브러리와 오픈소스가 성숙했고, AI 도구가 코딩과 탐색을 지원한다. 누구나 고급 방법을 도구로 사용할 수 있는 환경이 갖추어졌다. 다만 도구의 접근성이 높아졌다고 해서 이해의 필요성이 줄어든 것은 아니다. 이해 없이 도출된 결과는 설명과 검증의 과정을 통과하기 어렵다.
워드 프로세서의 내부 원리를 모르더라도 사용법을 익혀 생산적으로 활용하듯, 데이터 사이언스 방법론도 왜 사용하는지와 어떻게 해석하는지를 중심으로 익히면 충분히 활용할 수 있다. 더 정확하고 타당한 방법이 있다면, 수식 증명을 모두 이해하지 못하더라도 그 가정과 한계를 파악하고 적절한 범위에서 사용하는 것이 현실적인 접근이다.
한편 생성형 AI의 확산은 방법론의 발전을 촉진하는 동시에 데이터 분석가에게 역할 확장을 요구하고 있다. 단순 분석과 리포트 작성만으로는 차별성을 확보하기 어려워지고 있으며, 데이터 수집·정제·파이프라인 구축을 다루는 데이터 엔지니어링과 모델 배포·모니터링·재학습을 담당하는 MLOps 영역에 대한 이해가 필요하다. 이 책이 그러한 확장의 기초를 마련하는 데 도움이 되기를 바라며, 데이터 엔지니어링과 MLOps를 본격적으로 다루는 후속 저서도 별도로 준비할 예정이다.
이 책은 문서 수집 및 요약과 정리, 원고 점검 과정에서 LLM 도구(Perplexity ai, 구글 NotebookLM)를 활용했음을 밝히며, 내용과 관련한 모든 책임은 필자에게 있음을 밝힌다. 그리고 실습 파일은 도서출판 윤성사 TSTORY 자료실에 있으며, 윈도우, 맥, 리눅스 모든 운영 체제에서 실습이 가능하다. 마지막으로 이 책의 출판을 응원해 주시고 수고해 주신 도서출판 윤성사 정재훈 대표님과 임직원에게 진심으로 감사의 마음을 전한다.
2026년 2월
이석민
<차례>
제1장 데이터 사이언스의 진화: 통계에서 AI까지
제1절 데이터 사이언스의 역사와 패러다임 변화
제2절 머신러닝의 주요 유형
제3절 AI 시대의 데이터 분석 워크플로우
제4절 LLM 기반 탐색적 데이터 분석
제5절 전통적 머신러닝 vs. 딥러닝: 선택 기준
제6절 분석 방법 총람
제2장 데이터 전처리와 특성 공학: 모델 성능을 좌우하는 원리
제1절 결측치 처리: 결측이 학습에 미치는 영향
제2절 스케일링: 입력 스케일의 역할
제3절 차원 축소: 고차원의 저주와 정보 보존
제4절 특성 공학: 모델이 학습하기 쉬운 표현 만들기
제5절 텍스트의 수치 표현: LLM 기반 변환
제6절 범주형 변수 임베딩: 관계의 수치적 표현
제3장 분류와 회귀: 전통에서 AutoML까지
제1절 분류와 회귀 문제의 기초
제2절 평가 지표의 체계적 정리
제3절 의사결정나무와 해석 가능한 ML
제4절 로지스틱 회귀와 SVM의 현대적 활용
제5절 이상치 탐지 기법
제6절 AutoML: 자동화된 모델 선택
제4장 군집 분석: 유사성 기반 데이터 분할과 비즈니스 응용
제1절 군집 분석이 해결하는 문제
제2절 K-Means: 중심점 거리 기반 유사성
제3절 HDBSCAN: 밀도 기반 유사성
제4절 임베딩 기반 군집: 의미적 유사성에 따른 텍스트 군집화
제5절 딥 클러스터링: 표현 학습과 군집의 공동 최적화
제5장 앙상블 학습: 정형 데이터 모델링과 해석
제1절 앙상블 학습의 원리
제2절 랜덤 포레스트
제3절 그래디언트 부스팅
제4절 하이퍼파라미터 최적화 전략
제5절 트리 기반 모델의 심화 해석
제6절 Counterfactual Explanations
제7절 정형 데이터 모델링: XGBoost와 딥러닝 비교
제8절 앙상블과 LLM의 결합 전략
제6장 토픽 모델링: 비정형 텍스트의 잠재 주제 추출
제1절 토픽 모델링이 해결하는 문제
제2절 LDA: 단어 빈도로 주제 추론하는 원리
제3절 BERTopic: 의미적 유사성으로 주제 발견
제4절 LLM 기반 토픽 라벨링
제5절 동적 토픽: 토픽 생명주기 분석
제6절 Multimodal Topic Modeling: 텍스트와 이미지 통합 분석
제7장 신경망 기반 데이터 분석: 표현 학습과 정형 데이터 모델링
제1절 신경망의 학습 원리
제2절 신경망이 데이터 분석에 기여하는 방식
제3절 정형 데이터 딥러닝: 트리 모델과의 비교
제4절 표현 학습: 오토인코더와 임베딩 추출
제5절 실무 파이프라인: PyTorch 기반 분석 흐름
제8장 생성 모델 기반 데이터 분석: 합성 데이터, 불확실성의 정량화
제1절 생성 모델이 데이터 분석에 기여하는 방식
제2절 합성 데이터 생성: CTGAN과 정형 데이터
제3절 VAE: 데이터 증강과 탐색 도구로서의 활용
제4절 Diffusion Model: 불확실성 정량화와 예측
제9장 시계열 분석: 미래 예측과 패턴 탐지
제1절 시계열 분석이 해결하는 문제
제2절 시계열의 구성 요소: 추세, 계절성, 잔차
제3절 ARIMA: 과거 값과 오차로 미래 예측
제4절 Prophet: 추세와 계절성의 가법 모형
제5절 LSTM: 순서를 기억하는 신경망
제6절 Transformer 시계열: Attention으로 중요한 과거 참조
제7절 TimeGPT: Foundation Model로 Zero-shot 예측
제8절 실습: 시계열 예측 모형 비교
제10장 생존 분석: 시간-사건 데이터의 모델링
제1절 생존 분석이 해결하는 문제
제2절 Kaplan-Meier 추정: 비모수적 생존 곡선과 집단 비교
제3절 Cox 비례위험 모형: 공변량이 생존에 미치는 영향 분석
제4절 머신러닝 생존 분석: 비선형 위험 패턴의 포착
제5절 딥러닝 생존 분석: DeepSurv와 경쟁 위험 모델링
제6절 경쟁 위험 분석
제7절 모형 비교 및 선택 가이드
제11장 그래프 분석: 네트워크에서 패턴 발견
제1절 그래프 분석이 해결하는 문제
제2절 중심성 분석: 영향력 있는 노드 찾기
제3절 커뮤니티 탐지: 숨겨진 그룹 발견
제4절 링크 예측: 미래 관계 예측
제5절 그래프 임베딩: 노드를 벡터로 표현
제6절 추천 시스템: 사용자-아이템 관계 분석
제12장 그래프 신경망과 지식 그래프: 딥러닝 기반 관계 분석
제1절 GNN의 분석 원리
제2절 노드 분류: 노드 속성 예측
제3절 GNN 링크 예측: 관계 예측
제4절 GNN 추천 시스템: MF에서 LightGCN으로
제5절 지식 그래프 임베딩: 관계 추론
제6절 GNN의 발전 방향과 정리
<저자 소개>
이석민
서울대학교에서 인류학(학부), 의회정치(석사), 과학기술정책(박사)을 수학했으며, 박사후 과정에서 통계학과 계량경제학을 연구했다. 인류학적 관찰에서 시작하여 정치학과 정책학의 이론적 토대를 거쳐, 계량경제학과 통계학의 방법론적 엄밀성을 습득한 후, 최근에는 딥러닝과 생성형 AI를 정책 현장에 적용하는 연구를 수행하고 있다. 수원대학교 행정학과에서 빅데이터분석을 연구했으며, 현재 한신대학교 공공인재빅데이터융합학부에서 AI 기반 정책분석과 딥러닝 응용 연구를 진행하고 있다. 『AI를 활용한 시니어 정신건강 진단 앱』을 개발하고 특허출원했다. 저서로는 『R과 STATA를 활용한 정책평가방법론』(2017), 『빅데이터분석방법론』, 『구조방정식: 준실험설계접근』, 『인과 데이터 사이언스(Causal Data Science): AI 시대를 위한 분석·평가 모델링의 진화』 (2026), 『LLM 시대의 인문사회과학방법론』(2026)등이 있으며, 행정학 및 이공계 학술지에 논문을 게재하였다. 웹프로그래밍, 데이터베이스, MLOps, 딥러닝 자연어 처리 및 영상처리, AI 에이전트, 정책분석평가, 분석기획론 등 인문사회과학과 AI·Software 기술을 융합하는 교육을 실천하고 있다.