본문 바로가기
반응형

코딩/데이터분석(Pandas, ML, etc)13

두 개의 판다스 데이터프레임에서 중복되지 않는 항목(차집합)만 걸러내는 방법 목차 1. 주제 소개 2. 판다스로 차집합 구하기 1. 주제 소개 간단한 판다스 사용 요령을 하나 소개한다. 두 개의 데이터프레임을 비교, 대조하는 메서드로서 판다스는 join과 merge를 제공한다. 아마 데이터프레임 간에 겹치는 항목들, 즉 교집합을 구하는 데에 가장 자주 사용할 것이다. 그런데 join과 merge에 관한 판다스 문서를 보면 데이터프레임 간에 겹치치 않는 항목들, 즉 차집합을 구하는 방법은 나와 있지가 않다. 예를 들어, 위의 도표에서 B가 기존에 가지고 있던 목록이고, A가 새로 확보한 목록인 경우, 기존 목록에는 없고 새로 확보한 목록에만 있는 항목을 뽑아내려면 어떻게 해야 할까? 2. 판다스로 차집합 구하기 아래의 자료를 대조하고 싶다고 가정하자. df1은 지난 달의 손님 목록.. 2022. 5. 4.
파이썬과 사이킷럿(scikit-learn)을 이용한 머신러닝 예제/신용카드 부정 탐지(파트 2/2) 신용카드 부정 탐지에 관한 머신러닝 예제를 아래 글에 이어서 계속 살펴보자. 파이썬과 사이킷럿(scikit-learn)을 이용한 머신러닝 예제/신용카드 부정 탐지(파트 1/2) 파이썬과 사이킷럿(scikit-learn)을 이용한 머신러닝 예제/신용카드 부정 탐지(파트 1/2) 이 포스팅은 아래의 영문 페이지를 우리말로 옮긴 것이다. 머신러닝에 대해 공부하던 중 예제 중심으로 가장 잘 설명이 되어 있는 것으로 보여 복습도 할 겸 나중에 쉽게 찾아볼 수 있도록 우리 codealone.tistory.com 목차 3. Unlabeled Data를 이용한 부정 탐지 정상 행동과 비정상 행동 부정 탐지를 위한 군집화 기법 부정거래와 정상거래 표시하기 부정 탐지를 위한 대안적 군집화 기법 3. Unlabeled Da.. 2022. 3. 6.
파이썬과 사이킷럿(scikit-learn)을 이용한 머신러닝 예제/신용카드 부정 탐지(파트 1/2) 이 포스팅은 아래의 영문 페이지를 우리말로 옮긴 것이다. 머신러닝에 대해 공부하던 중 예제 중심으로 가장 잘 설명이 되어 있는 것으로 보여 복습도 할 겸 나중에 쉽게 찾아볼 수 있도록 우리말로 옮겨두려고 한다. 전부 옮기진 않고 옮기고 싶은 부분만 옮겼으며, 중간중간 박스로 부연 설명을 했다. https://trenton3983.github.io/files/projects/2019-07-19_fraud_detection_python/2019-07-19_fraud_detection_python.html Fraud Detection with Python Compare SMOTE to original data¶ In the last exercise, you saw that using SMOTE suddenly.. 2022. 2. 9.
파이썬 머신러닝 라이브러리 Scikit-learn(사이킷런) 사용법 요즘 머신러닝에 관심이 생겨 공부를 하는 중이다. 이 글은 파이썬의 머신러닝 라이브러리 중 대표 격인 사이킷런에서 제공하는 아래 페이지를 우리말로 옮긴 것이며, 필자처럼 이 분야에 익숙하지 않은 사람들을 위한 추가 설명을 박스로 덧붙였다. 필자도 이제 막 배워가고 있는 입장이므로 정확하지 않은 내용이 포함되어 있을 수도 있다. https://scikit-learn.org/stable/getting_started.html Getting Started The purpose of this guide is to illustrate some of the main features that scikit-learn provides. It assumes a very basic working knowledge of mac.. 2022. 1. 30.
웹사이트(인터넷)에서 표를 판다스(Pandas) 데이터프레임으로 불러오는 방법/read_html 판다스에서 원데이터를 불러오는 가장 흔한 방법은 앞서 소개한 CSV, 엑셀 파일을 불러오는 방법일 것이다. 판다스(Pandas)에서 엑셀, CSV 파일 불러오기 기초 판다스(Pandas)에서 엑셀, CSV 파일의 일부만 불러오기, 데이터타입과 포맷 지정하기 판다스(Pandas)에서 시트가 여러 개인 엑셀 파일을 불러오는 방법 그러나 가끔은 웹사이트에 있는 자료를 긁어오고 싶을 때도 있다. 예를 들면 위키백과에서 국가별 1인당 GDP 데이터를 긁어다 데이터프레임으로 바꾸고 싶다면 어떻게 하면 될까? 필자가 웹페이지의 정보를 가져오는 방법도 소개한 적이 있긴 하지만, 이 방법으로 데이터프레임을 만들기는 쉽지 않아 보인다. 파이썬으로 웹 페이지에서 정보 추출하기(웹스크레이핑, 웹크롤링)/Request와 Bea.. 2021. 12. 27.
판다스(Pandas)에서 시트가 여러 개인 엑셀 파일을 불러오는 방법 목차 1. 주제 소개 2. 모든 시트 불러오기 3. 특정 시트 불러오기 1. 주제 소개 앞서 CSV 파일이나 엑셀 파일을 불러오는 방법에 대해 소개하는 글을 올렸었다. 판다스(Pandas)에서 엑셀, CSV 파일 불러오기 기초 판다스(Pandas)에서 엑셀, CSV 파일의 일부만 불러오기, 데이터타입과 포맷 지정하기 위에 소개한 내용 외에도 수많은 옵션들이 있지만, 활용 빈도가 잦고 기본적인 내용들은 거의 소개한 것 같다. 위에 소개한 내용들은 엑셀, CSV 파일에 공통적으로 적용되는 내용이었는데, 이번에는 마지막으로 엑셀 파일에만 해당되는 내용을 소개하려 한다. 엑셀 파일의 경우에는 한 개의 문서 안에 여러 개의 시트를 만들 수가 있는데, 분석하려는 데이터가 수십 개의 시트로 이루어진 경우도 있을 것이.. 2021. 12. 16.
반응형