서론
판다스를 배울 수 있는 자료는 넘쳐난다.
우선, 판다스의 공식 홈페이지에서 튜토리얼을 제공한다.
그뿐 아니라 파이썬의 인기 비결 중의 하나가 판다스라고 할 만큼 대중적이고 유명한 라이브러리이기 때문에, 파이썬을 다루는 웹페이지, 유튜브 채널 등은 거의 예외 없이 판다스를 다루고 있다.
이것저것 많은 자료들이 있으나 책으로 출판된 것이 아무래도 체계적이고 정제된 느낌이어서 학습하기에는 더 편한 것 같다.
많고 많은 판다스 책 중에 끝판왕이라 할 만한 책을 소개한다.
본론
필자가 소개할 책은 "파이썬 라이브러리를 활용한 데이터 분석"이다.
교보문고 링크
표지에서 뭔가 전문서적의 느낌이 물씬 난다.
1. 저자 소개
왜 이 책이 끝판왕이라고 소개하게 됐는지를 보자.
이 책의 지은이는 웨스 맥키니라는 분이라고 하는데, 지은이 소개를 보니 흥미로운 부분이 보인다.
"복잡하고 느린 데이터 분석 툴에 실망하여 ... pandas 프로젝트를 시작했다."라며, 마치 판다스를 만든 것처럼 돼 있다.
판다스 홈페이지에 가서 확인해보자. 만든 사람이면 이름이 나올 테니까.
About us의 Team 페이지에 들어가보니 Maintainers 중 맨 앞에 위 책의 지은이가 나온다.
일단 중요한 사람이긴 한가보다.
그리고 밑으로 좀 내려가 보니 이 책의 지은이가 the Benevolent Dictator for Life(BDFL)이라고 한다.
무슨 말인가 싶어 검색해보니, 위키백과 문서가 나온다.
자비로운 종신독재자(BDFL, Benevolent Dictator for Life)란 소수의 오픈 소스 소프트웨어 개발 리더에게 부여되는 칭호이다. 주로 커뮤니티 내에서 논쟁이 있을 때 최종적으로 결론을 내려줄 수 있는, 프로젝트 창시자인 경우가 많다.
판다스를 만드신 분이 맞아 보인다.
그렇다면 저자에 대한 신뢰도는 보장된 것 같다.
무엇이 되었든 원조에게 배울 기회는 흔치 않다.
2. 책 훑어보기
이 책의 목차를 보자.
14개 챕터와 2개의 부록으로 구성돼 있다.
CHAPTER 1 시작하기 전에
CHAPTER 2 파이썬 언어의 기본, IPython, 주피터 노트북
CHAPTER 3 내장 자료구조, 함수, 파일
CHAPTER 4 NumPy 기본: 배열과 벡터 연산
__4.1 NumPy ndarray: 다차원 배열 객체
__4.2 유니버설 함수: 배열의 각 원소를 빠르게 처리하는 함수
__4.3 배열을 이용한 배열지향 프로그래밍
__4.4 배열 데이터의 파일 입출력
__4.5 선형대수
__4.6 난수 생성
__4.7 계단 오르내리기 예제
__4.8 마치며
CHAPTER 5 pandas 시작하기
__5.1 pandas 자료구조 소개
__5.2 핵심 기능
__5.3 기술 통계 계산과 요약
__5.4 마치며
CHAPTER 6 데이터 로딩과 저장, 파일 형식
__6.1 텍스트 파일에서 데이터를 읽고 쓰는 법
__6.2 이진 데이터 형식
__6.3 웹 API와 함께 사용하기
__6.4 데이터베이스와 함께 사용하기
__6.5 마치며
CHAPTER 7 데이터 정제 및 준비
__7.1 누락된 데이터 처리하기
__7.2 데이터 변형
__7.3 문자열 다루기
__7.4 마치며
CHAPTER 8 데이터 준비하기: 조인, 병합, 변형
__8.1 계층적 색인
__8.2 데이터 합치기
__8.3 재형성과 피벗
__8.4 마치며
CHAPTER 9 그래프와 시각화
__9.1 matplotlib API 간략하게 살펴보기
__9.2 pandas에서 seaborn으로 그래프 그리기
__9.3 다른 파이썬 시각화 도구
__9.4 마치며
CHAPTER 10 데이터 집계와 그룹 연산
__10.1 GroupBy 메카닉
__10.2 데이터 집계
__10.3 Apply: 일반적인 분리-적용-병합
__10.4 피벗테이블과 교차일람표
__10.5 마치며
CHAPTER 11 시계열
__11.1 날짜, 시간 자료형, 도구
__11.2 시계열 기초
__11.3 날짜 범위, 빈도, 이동
__11.4 시간대 다루기
__11.5 기간과 기간 연산
__11.6 리샘플링과 빈도 변환
__11.7 이동창 함수
__11.8 마치며
CHAPTER 12 고급 pandas
CHAPTER 13 파이썬 모델링 라이브러리
CHAPTER 14 데이터 분석 예제
APPENDIX A 고급 NumPy
APPENDIX B IPython 시스템 더 알아보기
가장 핵심적인 내용은 7~10챕터이다.
이미 판다스의 기초 사용법을 어느 정도 익힌 사람이라면, 7~10챕터만 봐도 이 책에서 얻고자 하는 바는 거의 얻을 수 있을 것이다.
또한 14챕터는 여러 가지 데이터 분석 예제를 보여주고 있다.
판다스를 만든 사람이 직접 선보이는 예제라니, 판다스에 관심이 있는 사람이라면 궁금해서 빨리 보고 싶을 것이다.
개인적으로 가장 재미있는 챕터는 챕터 10이었다.
3. 예제 소스
책을 보면 예제 소스의 링크를 알려주는데, 깃허브에서 누구나 볼수 있게 돼 있다.
예제 소스 링크
판다스에 조금은 익숙한 사람이라면 책을 구입하지 않고 예제 소스만 훑어보더라도 많은 것을 배울 수 있을 것이다.
필자는 위 예제 레포지토리를 PC에 클론해두고 틈틈이 열어서 코드를 찾아 활용하고 있다.
마무리
사실 이 책소개를 보지 않더라도 이미 판다스에 관한 책 중에서는 베스트셀러라서 쉽게 접해볼 수 있는 책이다.
필자가 읽어보니 역시나 제일 낫더라는 한줄평과 함께 책소개를 마친다.
'코딩 > 데이터분석(Pandas, ML, etc)' 카테고리의 다른 글
판다스, 데이터 분석 책 추천/파이썬으로 데이터 주무르기 (0) | 2021.12.08 |
---|---|
엑셀 대신 파이썬의 판다스 라이브러리를 사용해야 하는 이유 (0) | 2021.12.07 |
파이썬을 이용한 데이터 분석 예제/코로나19 확진자 통계는 정말 조작되고 있을까?(판다스, 벤포드 법칙) (0) | 2021.11.27 |
판다스(Pandas)에서 엑셀, CSV 파일 불러오기 기초 (0) | 2021.11.20 |
판다스(Pandas) 주요 함수(명령어) 모음(정리표, cheat sheet) (0) | 2021.11.16 |
댓글