Posts
기록
Cancel

1. 타이타닉 데이터 preprocessing 1.1 Data load import pandas as pd titanic_url = 'https://github.com/hmkim312/datas/blob/main/titanic/titanic.xls?raw=true' titanic = pd.read_excel(titanic_url) titanic...

1. Dosg and Cats data 1.1 Data donwload kaggle : https://www.kaggle.com/c/dogs-vs-cats/data 위의 링크에서 Donwload all 버튼을 눌러 dogs-vs-cats를 받으면 된다. 압축을 2번 풀어 train과 test1 폴더를 구한다. 용량이 약 900메가정...

1. MNIST 1.1 MNIST란 NIST는 미국 국립표준기술연구소(National Institute of Standards and Technology)의 약자입니다. 여기서 진행한 미션 중에 손글씨 데이터를 모았는데, 그중 숫자로 된 데이터를 MNIST라고 합니다. 28 * 28 픽셀의 0 ~ 9 사이의 숫자 이미지와 레이블로 구성된 ...

1. HAR data 1.1 HAR data load import pandas as pd import matplotlib.pyplot as plt url = 'https://raw.githubusercontent.com/hmkim312/datas/main/HAR/features.txt' feature_name_df = pd.read_csv(ur...

# 1. kNN 1.1 kNN이란? 새로운 데이터가 있을 때, 기존 데이터의 그룹 중 어떤 그룹에 속하는지를 분류하는 문제 k는 몇번째 가까운 데이터까지볼 것인가를 정하는 수치를 뜻함 k = 5로 설정하면 5번째까지 가까운 데이터라는 뜻으로, k값에 따라 결과값이 바뀔수 있음 각 데이터의 거리는 유클리드를 사용함 데이터의 단위...

1. Olivetti 데이터 1.1 데이터 소개 미국의 AT&T와 캠프리지 대학 전산 연구실에서 공동으로 제작한 얼굴 사진 데이터 얼굴 인식 등 다양한 분야에서 활용되고 있음 일부 데이터가 sklearn에 dataset으로 내장되어 있음 2. 실습 2.1 Data load from sklearn.datasets im...

1. PCA 1.1 PCA란? 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내주는 요소를 찾아 내는 방법 통계 데이터 분석(주성분 분석), 데이터 압축(차원 감소), 노이즈 제거 등 다양한 분야에서 사용 1.2 간단한 PCA의 개념 주성분 분석 : 차원축소와 변수추출 기법으로 널리 쓰이고 있음 데이터의 분산...

1. 신용카드 부정사용자 검출 1.1 신용카드 부정사용자 검출 신용카드 사기 검출 분류 실습용 데이터 데이터에 class라는 이름의 컬럼이 사기 유무를 의미 class 컬럼의 불균형이 극심해서 전체 데이터의 약 0.172%가 사기(Fraud)를 가짐 금융 데이터이고, 기업의 기밀 보호를 위해 대다수의 특성이름은 삭제되어있음 Am...

1. GBM - Gradient Boosting Machine 1.1 GBM 부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습 예측하면서 잘못 예측한 데이터에 가중치를 부여해서 오류를 개선해 나가는 방식 GBM은 가중치를 업데이트할때 경사 하강법을 사용하는것이 큰 차이 1.2 HAR 데이터로 실습 import pandas...

1. 앙상블 1.1 앙상블이란 앙상블은 전통적으로 Voting, Bagging, Boosting, 스태깅으로 나뉨 보팅과 배깅은 여러개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식임 보팅과 배깅의 차이점은 보팅은 각각 다른 분류기, 배깅은 같은 분류기를 사용함 대표적인 배깅은 랜덤 포레스트 1.2 Boosting의...