Posts
기록
Cancel

1. Olivetti 데이터 1.1 데이터 소개 미국의 AT&T와 캠프리지 대학 전산 연구실에서 공동으로 제작한 얼굴 사진 데이터 얼굴 인식 등 다양한 분야에서 활용되고 있음 일부 데이터가 sklearn에 dataset으로 내장되어 있음 2. 실습 2.1 Data load from sklearn.datasets im...

1. PCA 1.1 PCA란? 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내주는 요소를 찾아 내는 방법 통계 데이터 분석(주성분 분석), 데이터 압축(차원 감소), 노이즈 제거 등 다양한 분야에서 사용 1.2 간단한 PCA의 개념 주성분 분석 : 차원축소와 변수추출 기법으로 널리 쓰이고 있음 데이터의 분산...

1. 신용카드 부정사용자 검출 1.1 신용카드 부정사용자 검출 신용카드 사기 검출 분류 실습용 데이터 데이터에 class라는 이름의 컬럼이 사기 유무를 의미 class 컬럼의 불균형이 극심해서 전체 데이터의 약 0.172%가 사기(Fraud)를 가짐 금융 데이터이고, 기업의 기밀 보호를 위해 대다수의 특성이름은 삭제되어있음 Am...

1. GBM - Gradient Boosting Machine 1.1 GBM 부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습 예측하면서 잘못 예측한 데이터에 가중치를 부여해서 오류를 개선해 나가는 방식 GBM은 가중치를 업데이트할때 경사 하강법을 사용하는것이 큰 차이 1.2 HAR 데이터로 실습 import pandas...

1. 앙상블 1.1 앙상블이란 앙상블은 전통적으로 Voting, Bagging, Boosting, 스태깅으로 나뉨 보팅과 배깅은 여러개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식임 보팅과 배깅의 차이점은 보팅은 각각 다른 분류기, 배깅은 같은 분류기를 사용함 대표적인 배깅은 랜덤 포레스트 1.2 Boosting의...

1. 시카고 매거진 1.1 시카고 매거진 https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/ 미국 시카고 매거진의 베스트 50개의 샌드위치 맛집 리스트 메뉴와 가게 이름이 정리 1.2 가게 상세 페이지 각각소개한 50개의...

1. 네이버 영화 평점 1.1 네이버 영화 평점 https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&date=20201021 네이버 영화에서 영화 평점을 크롤링 해보도록 해보자 학습용으로 서버에부하되지않을 정도로만 크롤링하자. 너무많이 크롤링하면 네이버측에서 제제가 들어올수 ...

1. Mall Customer Segmentation Data 1.1 Mall Customer Segmentation Data Kaggle에 있는 쇼핑몰 고객 데이터 https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python 2. Mall Customer...

1.K-Means 1.1 K-Means 군집화에서 가장 일반적인 알고리즘 군집 중심이라는 임의의 지점을 선핵해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 일반적인 군집화에서 가장 많이 사용되는 기법 거리 기반 알고리즘으로 속성의 개수(K)가 매우 많을 경우 군집화의 정확도가 떨어짐 1.2 원리 초기 중심...

1. 네이버 영화 1.1 네이버 영화 평점 https://movie.naver.com/movie/point/af/list.nhn 관객이 영화를 관람 후 리뷰와 함께 평점을 0점 ~ 10점 까지의 점수를 남김 영화의 리뷰와 함께 평점을 크롤링해와서 감성분석에 사용 1.2 Data Load import pandas as pd tr...