<머리말>

  저자는 오랫동안 책을 쓰는 것에 큰 두려움을 가지고 있었다. 어떻게 수백 페이지를 넘기는 원고를 한 가지 주제에 깊이 천착해 다채로우면서도 통일적인 구조를 만들어 저술할 수 있을까? 그런 어려운 작업을 끝내고 자기 이름으로 책을 내놓은 사람들에 대한 존경과 경외감까지 들 정도였다. 특히 학문의 영역에서 활동하는 사람으로 쓴 글에 대한 무거운 책임감과 부담이 다가와 쉽게 시도조차 할 수 없었다. 하지만 첫 단행본 저술이었던 『도시행정』을 작년 초에 동료 교수 두 분의 도움으로 함께 완성하면서 큰 용기를 얻었다. “그래 이제 그동안 공부하고 강의했던 내용을 한번 정리해서 책을 좀 써 보자!” 코로나 팬데믹 시기에 개인적인 여러 아픔을 겪으면서 학교에서 정교수 승진도 하고 정년을 받고서 더는 연구 업적을 만들기 위한 논문을 쓰는 것에서도 해방됐다.

  그럼 어떤 주제로 책을 써 볼까? 이런저런 흥미를 갖는 다양한 주제들이 있었으나 고민은 그리 길지 않았다. 지난 2009년 한국에 귀국해 학교에서 일하기 시작한 후부터 아니 어쩌면 그전에 미국에서 통계를 실질적으로 처음 접하고 공부한 이후 가장 책을 쓰고 싶었던 주제가 바로 데이터 분석과 통계였기 때문이다. 그동안 사회과학 분야에서는 훌륭한 선배와 동료 학자들이 쓴 다양한 통계 관련

서적들이 발간됐다. 모두 많은 고민과 역량이 투입된 멋진 저작들이었으나 여전히 일부 독자들은, 특히 학부 학생들은 통계를 이해하고 공부할 때 어려움을 겪는 것 같다. 그래서 이 책은 “문송합니다!”를 외치며 부끄러워하는 행정학과 제자들을 비롯한 많은 비이과 계열 학부 재학생의 통계 공부에 조금이나마 도움을 주려는 목적이 있다. 특히 통계를 아주 기초부터 좀 더 쉽게 직관적으로 이해하고 공부하고자 하는 사회과학 전공 학부생들에게 가장 적합한 교재라고 생각한다. 이 책이 다른 통계학 교과서와 차별성을 갖는 부분은 다음과 같다.

  첫째, 이 책은 기본적으로 쉽고 상대적으로 적은 내용을 담고 있다. 총 15장으로 구성돼 16주 수업을 통해 여유를 갖고 전체 내용을 다룰 수 있다. 아울러 철저히 학부 수준에 눈높이를 맞춰 구성된 교재라서 통계학의 모든 내용을 담은 백과사전식 구조와는 거리가 멀다. 일부 교재에서 다루는 구조방정식 모형이나 패널 분석과 같은 다소 수준이 높은 내용은 포함하지 않았고, 대신 데이터의 이해와 기초적 분석에 초점을 맞춰 사회과학 전공 학부생들에게 가장 기본적이고 중요한 내용만 선별해서 소개했다.

  둘째, 이 책은 최대한 자세하고 친절하게 설명하고 되도록 풀어 쓰려고 노력했다. 또한 중복되는 내용이 나오더라도 생략하거나 이미 알고 있다고 전제하지 않고 해당 내용을 다시 상기하도록 돌려서 설명했다. 따라서 다소 본문 텍스트 내용이 건조하고 장황할 수도 있지만 이 책의 취지가 텍스트를 술술 편하게 읽으면서 자연스럽게 내용을 파악하고 이해하는 것을 지향한다는 점에서 독자들의 이해를 구한다. 아울러 불가피하게 필요한 경우 수학적 기호와 수식을 활용했지만, 이 역시 상세한 설명을 곁들였고, 가능하면 직관적 서술과 이해하기 쉬운 간결한 사례를 활용했다.

  셋째, 단순히 이론을 소개하는 데 그치지 않고 다양한 현실 사례들을 이론과 연계시켜 설명했다. 사례는 대부분 사회과학 분야에서 다룰 수 있는 흥미로운 주제를 선정했고, 학습자가 직접 수작업으로 관련 통계 문제를 해결할 수 있도록 구성했다. 특히 마지막 4부에서는 가설 검정 5단계에 기초한 문제 해결을 모든 주제에 일관성을 갖고 적용해 제시했고 사례 해결에 초점을 맞췄다. 아울러 책에서 제공하는 동일 사례 데이터를 R프로그램에서 직접 분석해 그 결과를 확인할 수 있도록 도왔다.

  넷째, 기본적으로 사회과학 통계의 이론서이지만 데이터 분석과 다양한 통계적 추론 및 검정을 통계 프로그램에서 수행하는 방법을 보여 주고자 했다. 애초에는 개인적으로 선호하는 STATA 소프트웨어를 활용하고자 했으나 무엇보다 최대 독자인 학부 학생들이 무료로 프로그램을 사용하는 것이 중요하다고 판단해 R 소프트웨어를 선택했다. 하지만 이 교재는 R프로그램 설명서가 아니기에 프로그램 설치부터 기본 문법에 이르는 세세한 내용을 포함하지 않는다. 기존 R프로그램 관련 통계 서적이 R프로그램은 물론 R-Studio까지 매뉴얼에 가깝게 자세하고 풍부한 내용을 포함하는 것과는 차이가 있다. 이 책에서는 학습자가 R프로그램을 설치했다고 전제하고 주요 통계 분석을 R에서 간단히 수행하는 핵심적 내용만 선별해 간결하게 다뤘다.

  이 책에서 발견되는 오류나 문제점은 순전히 저자의 실수나 부족함에서 비롯된 것이다. 언제든 비판과 의견을 보내 주시면(ypark@kgu.ac.kr) 향후 개정판에서 충분히 반영할 생각이다. 이 책이 빛을 보기까지 여러 소중한 분들의 가르침, 격려, 도움, 지지가 있었다. 우선 선뜻 용기를 내지 못하는 저자를 꾸준히 독려하며 오랜 시간 기다려 주고, 저자의 아이디어를 늘 존중해 주고 하나라도 좋은 내용을 이 책에 더 담아 낼 수 있도록 애써 주신 도서출판 윤성사 정재훈 대표님께 감사드린다. 아울러 힘든 편집과 교정을 마다 않은 윤성사 식구들에게도 깊은 감사를 전한다.

  평생의 인생 멘토이며 박사과정 지도교수이신 Paul Jargowsky 교수님은 박사과정 첫 학기 통계 수업에서 처음 만났다. 두려움과 긴장으로 점철된 첫 학기에서 교수님의 수업은 가장 재미있고 흥미로웠다. 교수님이 소개한 강의안 자료, 숙제(problem sets), 예제 데이터는 통계 수업을 진행하고 이 책을 쓰는 데 기초 골격이 됐다. 교수님은 현재 Rutgers University의 Center for Urban Research and Education(CURE)의 디렉터로 계시면서 연구년 기간 저자를 센터의 방문연구원(visiting scholar)으로 초청해 주셨다. 교수님의 도움이 없었다면 이 책은 결코 빛을 보지 못했을 것이다.

  이 책은 저자의 연구년 기간에 완성됐다. 미국 뉴저지주 Rutgers University에서 방문연구원으로 1년간 머무르면서 함께 지낸 가족은 이 작업을 진행할 때 큰 힘을 줬다. 모처럼 저자와 소중한 시간을 보내고 싶어 했던 가족의 희생, 배려, 지지가 있었기에 결실을 얻을 수 있었다. 사랑하는 아내 영아 씨, 보석보다 더 빛나는 세 아이 하늘, 한별, 제인에게 깊은 감사와 사랑의 마음을 전한다. 마지막으로 평생 말이나 물질이 아닌 가슴으로 자식의 길을 묵묵히 지켜보고 응원해 주셨던 인자하고 선하신 부모님께 이 책을 바친다.

2022년 가을

눈부시게 아름다운 뉴저지주 Cherry Hill에서

저자 씀

 

<차례>

제1부 사회과학 통계에 발 담그기 

제1장 사회과학에서 왜 통계가 중요할까? 

제1절 사회를 이해하는 학문, 사회과학 

제2절 통계와 통계학 

제3절 사회과학과 통계의 접목 

제4절 산업혁명과 디지털 변환에 대응하는 통계의 미래 

 

제2장 사회과학 통계의 기초적 이해 

제1절 데이터, 통계 그리고 조사 

제2절 분석 단위, 관측치 그리고 변수 

제3절 데이터의 시간적 맥락 

제4절 모집단과 표본 

제5절 기술 통계와 추론 통계 

제6절 통계와 오차 

 

제2부 데이터의 서술을 통한 사회 현상의 이해 

제3장 데이터 이해의 첫걸음 

제1절 데이터의 수집 

제2절 데이터의 형태와 측정 

제3절 범주형 데이터의 기술과 정리 

제4절 빈도분포표의 다양한 활용 

제5절 백분율을 계산하는 다양한 방법 

 

제4장 통계로 현상을 설명하기 

제1절 데이터의 중심을 파악하기 

제2절 데이터의 퍼짐을 파악하기 

제3절 데이터의 상대적 위치를 확인하기 

제4절 데이터 분포의 대칭과 꼬리의 두터움을 파악하기 

제5절 R에서 기술 통계 결과 확인하기 

 

제3부 추론 통계의 기초 다지기 

제5장 확률과 통계 

제1절 확률은 통계에서 왜 중요할까? 

제2절 확률의 개념 정의 

제3절 사건 발생에 대한 경우의 수, 순열, 조합 

제4절 사건의 집합들, 상호 배타적 그리고 독립적 사건

제5절 확률의 주요 법칙과 그 응용 

 

제6장 확률분포 

제1절 확률분포와 빈도분포 

제2절 이산적 확률변수의 분포 

제3절 연속적 확률변수의 분포 

 

제7장 표본추출 

제1절 왜 표본이 필요할까? 

제2절 표본추출의 주요 방법들 

제3절 표본의 오차와 평균의 표본분포 

제4절 표본 비율의 표본분포 

 

제4부 추정과 검정으로 경험적 증거 만들기 

제8장 신뢰구간의 추정 

제1절 좋은 추정치의 성질과 모집단의 모수에 대한 점 추정 

제2절 큰 표본에 대한 신뢰구간의 추정 

제3절 평균과 비율 차이의 표본분포에 대한 신뢰구간의 추정 

제4절 작은 표본의 신뢰구간 

 

제9장 가설 검정의 기초

제1절 가설의 수립 

제2절 통계적 유의성과 오류 

제3절 가설 검정의 단계와 구체적 수행 절차 

제4절 모집단의 비율에 대한 큰 표본의 가설 검정 

제5절 모집단의 평균에 대한 큰 표본의 가설 검정 

제6절 양측 검정 

제7절 큰 독립표본 집단 간 차이의 가설 검정 

제8절 통계 프로그램에서 사용되는 p값과 R프로그램에서의 분석 및 결과 해석

 

제10장 작은 표본에 대한 검정과 분산에 대한 추정과 검정

제1절 왜 작은 표본으로부터 추론을 해야 할까? 

제2절 작은 표본의 가설 검정의 주요 사례들 

제3절 작은 표본 차이 검정 사례들에 대한 R프로그램에서의 분석 및 결과 해석

제4절 분산의 표본분포 

제5절 분산에 대한 신뢰구간의 추정 

제6절 분산에 대한 가설 검정 

제7절 독립표본 집단 간 분산 차이 검정(F분포) 

제8절 분산에 대한 추정과 검정에 대한 R프로그램에서의 분석 및 결과 해석

 

제11장 분산분석 

제1절 왜 분산분석이 필요할까? 

제2절 분산분석의 구성 요소 

제3절 분산분석의 가설 검정 

제4절 분산분석에 대한 R프로그램에서의 분석 및 결과 해석 

 

제12장 카이제곱 검정 

제1절 카이제곱 검정의 기본 원리 

제2절 독립성 검정 

제3절 적합성 검정 

제4절 동질성 검정 

제5절 카이제곱 검정에 대한 R프로그램에서의 분석 및 결과 해석 

 

제13장 상관분석 

제1절 상관분석의 기본 특성과 상관계수의 성질 

제2절 실제 사례에서 상관계수 구하기 

제3절 상관계수에 대한 가설 검정 

제4절 상관 관계에 대한 R프로그램에서의 분석 및 결과 해석

 

제14장 회귀분석 

제1절 회귀분석의 기본 개념 

제2절 인과관계 분석의 기본적 전제 및 변수 측정의 한계 

제3절 회귀식의 오차: 실제 관측치와 예측치의 차이 

제4절 사례를 통한 회귀식의 도출 

제5절 종속변수를 설명하는 모형과 오차 

제6절 회귀계수에 대한 가설 검정 

제7절 회귀모형의 유용성에 대한 F검정 

제8절 R프로그램에서의 단순회귀분석의 시행 및 결과 해석 

 

제15장 다중회귀분석과 응용 

제1절 회귀분석의 네 가지 가정 

제2절 다중회귀분석의 유용성 

제3절 결정계수와 모형의 설명력 

제4절 회귀모형의 독립변수 간 높은 상관 관계의 문제: 다중공선성 

제5절 더미변수의 투입과 해석 

제6절 로그모형의 활용 

제7절 R프로그램에서의 다중회귀분석의 시행 및 결과 해석 

 

[부록]

<통계표 1> 누적이항분포표 

<통계표 2> 누적포아송분포표 

<통계표 3> 누적정규분포표 

<통계표 4> t분포표 

<통계표 5> 카이제곱분포표 

<통계표 6> F분포표 

 

<저자 소개>

박윤환(朴尹煥)

The University of Texas at Dallas에서 정치경제 및 정책학(Political Economy and Public Policy) 박사학위를 받았다. 텍사스주의 댈러스 시청(City of Dallas)에서 인구통계분석관(Demographic Research Analyst)과 텍사스 교육연구소(Texas Education Research Center)의 Texas Schools Project에서 연구원(Research Scientist)을 역임했고, 2009년부터 경기대학교 행정학과 교수로 재직 중이다. 

“우리나라 빈곤층 거주지 집중과 분리의 공간적 패턴: 탐색적 공간자료 분석의 활용을 중심으로”(2016), “The Relationship between Residential Distribution of Immigrants and Crime in South Korea”(2018), “Determinants of Economic Segregation and Spatial Distribution of Poverty”(2019) 등의 다수 논문을 발표했고, 『도시행정: 뉴 노멀 시대의 패러다임 전환』(2022)의 저서가 있다.

수상으로는 2020년 9월 1일 통계의 날에 신뢰성 있는 통계 생산에 기여한 공로로 대통령 표창(제224886호)을 받았다.

주요 연구 관심 분야는 도시정책으로 특히 빈곤, 주거, 이민, 범죄, 사회계층, 거주지 분리 등이다(ypark@kgu.ac.kr).