개인적으로 Python을 가장 유용하게 사용하고 있는 분야는 아무래도 Pandas를 활용한 데이터 다루기일 것 같다.
용량이 큰 데이터를 빠르게 처리할 수 있을 뿐더러, 웹 크롤링 결과를 손쉽게 엑셀 파일로 변환할 수도 있는 등 매우 유용한 라이브러리라고 생각한다.
다만, VS Code에서 Pandas 라이브러리를 홯용할 때 한 가지 아쉬운 점이 있었는데, 바로 데이터프레임의 데이터가 많을 경우에는 전체 데이터프레임을 보기가 쉽지 않다는 것이다.
전체 데이터프레임을 보려 하면 아래와 같이 데이터프레임의 앞부분과 뒷부분만 보인다.
(예제 데이터는 건강보험 관련 통계 자료이다)
엑셀 파일로 내보내서 열어보면 전체 테이블을 볼 수 있지만, 엑셀의 단점을 보완하고자 Pandas를 사용하는 점을 감안하면 좋은 방법처럼 보이지는 않는다.
이럴 때, VS Code에서는 큰 데이터프레임도 엑셀처럼 전체 데이터를 열람하고, 심지어 간편하게 필터, 정렬도 할 수가 있다.
터미널 창을 열어보면, 아래와 같이 JUPYTER: VARIABLES 메뉴가 있다.
해당 메뉴를 클릭하면, 아래와 같이 모든 변수들이 목록으로 출력되는데, 변수 이름 왼쪽의 화살표 표시를 누르면 Data Viewer에서 해당 변수가 표시된다.
아래가 Data Viewer에서 표시된 데이터프레임인데, 칼럼명을 누르면 정렬이 되고, 칼럼명 아래의 입력란에 키워드를 입력하면 필터가 된다. 이 때 정규식(regular expression)도 사용이 가능하다.
용량이 큰 데이터라면 엑셀 파일에서 필터, 정렬만 한번 하더라도 작업 시간이 꽤 긴데, VS Code의 Data Viewer에서는 훨씬 빠른 것 같다.
Pandas 라이브러리의 여러 장점 때문에 엑셀 대신 Pandas를 사용하려 하고 있는데, Data Viewer를 알게 되었으니 엑셀을 사용할 일이 더 줄어들게 되었다.
'코딩 > 개발도구(Git, VS Code, etc)' 카테고리의 다른 글
VS code에서 자주 쓰는 코드 자동 완성하기/비주얼스튜디오코드 snippets 사용법 (0) | 2021.12.04 |
---|---|
스마트폰에서 깃허브 사용하기(클론, 푸시, 풀 전부 가능)/Spck editor (0) | 2021.11.24 |
깃(Git) 명령어 모음(git cheat sheet), 터미널에서 푸시하는 방법 (0) | 2021.11.16 |
비주얼스튜디오코드(VS Code)에서 파이썬(Python) 코드를 한줄씩 실행하는 방법 (0) | 2021.11.16 |
Git Push 오류(Authentication failed)가 날 경우 (0) | 2021.11.14 |
댓글