본문 바로가기
반응형

코딩/데이터분석(Pandas, ML, etc)13

판다스(Pandas)에서 엑셀, CSV 파일의 일부만 불러오기, 데이터타입과 포맷 지정하기 목차 1. 데이터의 일부만 불러오는 옵션 2. 데이터의 유형이나 포맷을 변경하는 옵션 앞서 판다스에서 엑셀이나 CSV 파일을 불러오는 기초적인 방법을 소개하였다. 그런데 실제로 데이터를 불러와 보면, 필요 없는 행이나 열이 많이 섞여 있거나, 데이터 유형이 잘못돼 있는 등의 이유로 데이터를 손봐야 할 때가 많다. 여기에서는 그러한 후처리 과정을 줄여줄 수 있도록, 파일을 불러올 때부터 옵션을 추가하는 방법을 소개한다. 1. 데이터의 일부만 불러오는 옵션 데이터의 앞부분만 불러오고 싶을 떄 원시데이터의 파일의 크기가 지나치게 크거나, 모든 행을 다 불러올 필요는 없는 경우가 있다. 전체 데이터에서 앞부분만 불러오려 한다면 nrows 옵션을 이용하면 된다. 다른 게시글(엑셀 대신 파이썬의 판다스 라이브러리를.. 2021. 12. 16.
판다스, 데이터 분석 책 추천/파이썬으로 데이터 주무르기 서론 최근 파이썬을 이용한 데이터 분석에 관심을 가지고 관련 키워드로 검색되는 책을 여러 권 사서 읽어보고 있는데, 그중 가장 추천할 만한 책을 지난 포스팅에서 한번 소개했었다. 판다스(Pandas) 교재 추천, 책 추천/파이썬 라이브러리를 활용한 데이터 분석 위 책은 판다스를 만드신 분이 쓴 책으로, 어찌 보면 당연히 그 내용이 매우 알차기 때문에 가장 먼저 "끝판왕"으로 추천을 했었다. 이번에는 필자가 읽어본 책들 중에 두 번째로 마음에 들었던 책을 소개한다. 솔직히 판다스를 소개한다는 책들 가운데에는 유튜브 동영상 한편 보는 게 나을 정도로 부실(?)한 책들이 많은데, 이 책은 전에 소개한 책 못지않게 유익한 책이라고 생각해, 끝판왕의 '전판왕' 정도로 소개할 수 있겠다. 책 소개 이 글에서 소개하.. 2021. 12. 8.
엑셀 대신 파이썬의 판다스 라이브러리를 사용해야 하는 이유 목차 1. 엑셀보다 데이터 처리 속도가 빠르다 2. 빠르다고 해서 엑셀보다 항상 우월한 것은 아니다. 3. 판다스를 써야 하는 다른 이유는? 필자는 파이썬과 판다스를 접한 뒤로 엑셀 대신 판다스를 사용하려 하고 있다. 필자가 생각하기에 판다스의 여러 장점들이 있기 때문인데, 그 이유를 여기에 소개한다. '파이썬? 판다스? 그거 엑셀이랑 똑같은 거 아니야?'라는 질문에 대한 필자 나름대로의 답이다. 1. 엑셀보다 데이터 처리 속도가 빠르다 엑셀은 편리하다. 그러나 느리다. 엑셀은 파일 크기가 불과 몇 메가바이트만 되어도 처리 속도가 느려지는 것이 체감이 된다. 엑셀로 단순한 서식 관리 정도만 하는 경우라면 느껴본 적이 없겠지만, 데이터가 조금만 많아져도 엑셀 때문에 답답함을 느껴본 사람들이 많을 것이다. .. 2021. 12. 7.
파이썬을 이용한 데이터 분석 예제/코로나19 확진자 통계는 정말 조작되고 있을까?(판다스, 벤포드 법칙) 서론 요즘은 잠잠하지만 국가별 코로나19 확진자 수에 대해서 한동안 말이 많았다. 특히 중국 등 몇몇 국가들에 대해서 확진자 수를 조작, 은폐하는 것 아니냐는 의심의 눈초리들이 있었다. 우리가 알 수 있는 것은 공식적으로 발표된 통계 자료뿐이기 때문에 무엇이 진실인지는 알기 어렵다. 그런데 "벤포드 법칙"에 따르면 숫자 데이터들의 앞자리가 무엇인지를 분석하여 부정이나 조작을 탐지할 수 있다고 한다. 상당히 흥미로운 내용인 데, "벤포드 법칙"을 간편하게 적용해볼 수 있는 파이썬 라이브러리가 있다는 것을 알게 되었다. 코로나19 확진자 통계 자료에 이를 적용해보자. 본론 벤포드 법칙 소개 1. 벤포드 법칙이란 무엇인가? 벤포드 법칙은 정말 단순하다. 현실 세계에서는 수많은 수치 데이터들이 존재하는데, 그 .. 2021. 11. 27.
판다스(Pandas)에서 엑셀, CSV 파일 불러오기 기초 서론 판다스는 데이터프레임을 생성하는 다양한 함수를 내장하고 있다. 아마 그 가운데 가장 빈번하게 사용하는 것은 엑셀 파일이나 CSV 파일을 불러다 사용하는 방법일 것이다. 공공데이터포털에서 제공하는 자료 등 판다스 사용자가 분석하고자 하는 많은 데이터들이 엑셀 또는 CSV 파일 형식으로 되어 있다. 이 글에서는 엑셀과 CSV 파일을 판다스의 데이터프레임으로 불러오는 기초적인 방법을 소개한다. 본론 판다스에서 엑셀 파일을 불러오는 방법과 CSV 파일을 불러오는 방법은 많은 부분에서 동일하므로 같이 소개한다. 여기에 소개하는 내용과 앞으로 몇 개의 포스팅에 걸쳐 소개할 내용은 판다스 홈페이지의 API reference 페이지에서 더 상세하게 확인할 수 있다. 링크를 타고 가서 Input/Output 메뉴를.. 2021. 11. 20.
판다스(Pandas) 교재 추천, 책 추천/파이썬 라이브러리를 활용한 데이터 분석 서론 판다스를 배울 수 있는 자료는 넘쳐난다. 우선, 판다스의 공식 홈페이지에서 튜토리얼을 제공한다. 그뿐 아니라 파이썬의 인기 비결 중의 하나가 판다스라고 할 만큼 대중적이고 유명한 라이브러리이기 때문에, 파이썬을 다루는 웹페이지, 유튜브 채널 등은 거의 예외 없이 판다스를 다루고 있다. 이것저것 많은 자료들이 있으나 책으로 출판된 것이 아무래도 체계적이고 정제된 느낌이어서 학습하기에는 더 편한 것 같다. 많고 많은 판다스 책 중에 끝판왕이라 할 만한 책을 소개한다. 본론 필자가 소개할 책은 "파이썬 라이브러리를 활용한 데이터 분석"이다. 교보문고 링크 표지에서 뭔가 전문서적의 느낌이 물씬 난다. 1. 저자 소개 왜 이 책이 끝판왕이라고 소개하게 됐는지를 보자. 이 책의 지은이는 웨스 맥키니라는 분이라.. 2021. 11. 20.
반응형