Posts
기록
Cancel

1. 모델평가 1.1 모델 평가란? 생성한 모델을 좋다, 나쁘다, 그저 그렇다 라고 평가할 방법은 사실 없다 대부분 다양한 모델, 다양한 파라미터를 두고, 상대적으로 평가를 한다 2. 회귀 모델 2.1 회귀모델의 평가 회귀 모델은 실제 값과의 에러치를 가지고 평가를 함 2.1.1 MAE (Mean Absolute Err...

1. 하이퍼 파라미터 튜닝 모델의 성능을 확보하기 위해 조절하는 설정값 1.1 튜닝대상 결정나무에서 아직 우리가 튜닝해볼만한 것은 max_depth이다. 간단하게 반복문으로 max_depth를 바꿔가며 테스트해볼 수 있을 것이다 그런데 앞으로를 생각해서 보다 간편하고 유용한 방법을 생각해보자 1.2 데이터 불러오기 impor...

1. 교차 검증 과적합 : 모델이 학습 데이터에마 과도하게 최적화된 현상. 그로인해 일반화된 데이터에서는 예측 성능이 과하게 떨어지는 현상 지난번 와인 맛 평가에서 훈련용 데이터의 Acc는 72.94, 테스트용 데이터는 Acc가 71.61%였는데, 누가 이결과가 정말 괜찮은 것인지 묻는다면? 나에게 주어진 데이터에 적용한 모델의 성능을 정...

1. 파이프라인(Pipeline) 1.1 Pipeline란 데이터를 가지고 분류기를 실행시킬때 하이퍼파라미터나 스케일러 등의 적용을 하다보면 코드의 순서가 바뀌는 등의 어려운 점이 있다. 해당 불편함을 해결해주는 Sklearn의 Pipeline이 있다. 쉽게 생각하여 데이터가 내가 설정한 대로 Pipe를 통과하여 여러개의 분류기나 스케일러...

1. MinMax, Standard 스케일러 1.1 스케일러(Scaler) 실수(숫자, 소수점)으로 된 데이터들을 일정한 범위를 가진 수치로 변경하기 위해 필요함 예를들어 어떤 데이터에서 A컬럼은 0 ~ 100의 값을 가지고, B의 컬럼은 0.1 ~ 1을 가진다고 하면 두 컬럼의 데이터들은 간격이 너무 큰 수치들로 이루어져있음 컬럼들의 최...

1. Git Contribution(잔디) 안올라갈때 1.1 git config에 user.name, user.email이 안맞을경우 잔디가 안올라가는 폴더에서 name과 email이 등록되어 있는지 확인 cd /잔디가 안올라가는 폴더로 이동 git config --list 전역으로 user.name, user.eamil...

1. Zip과 언패킹 1.1 리스트를 튜플로 zip list1 = ['a', 'b', 'c'] list2 = [1, 2, 3] pairs = [pair for pair in zip(list1, list2)] pairs [('a', 1), ('b', 2), ('c', 3)] zip을 이용하여 두개의 list를 tuple형태로 묶을수 ...

1. 머신러닝 1.1 지도학습이란 학습 대상이 되는 데이터에 정답(label)을 붙여서 학습 시키고 모델을 얻어서 완전히 새로운 데이터에 모델을 사용해서 ‘답’을 얻고자 하는것 1.2 데이터의 분리 (훈련(train)/ 검증(validation)/ 평가(test)) 전체 데이터에서 train / test 로 데이터를 분리하고 tr...

1. 머신 러닝이란? 1.1 머신러닝의 교과서적 정의 명시적으로 프로그래밍을 하지 않고 컴퓨터에 학습할 수 있는 능력을 부여여한 학문 과거의 데이터로부터 얻은 경험이 쌓여 감에 따라 주어진 태스크의 성능이 점점 좋아질 때 컴퓨터 프로그램은 경험으로부터 학습한다. Machine이 주어진 데이터를 통해 규칙을 찾는것 2. 의사결정나무(De...

타이타닉 튜토리얼 만약 데이터 사이언스, 머신러닝 또는 캐글에서 어떤 것을 해야하는 지 잘 모르는 newbie 라면, 타이타닉을 하시는 게 가장 좋은 선택입니다. 타이타닉은 아시다시피, 사상 최대 해난사고로써, 1,500여명의 희생자가 생겼습니다. 우리는 이 튜토리얼에서 타이타닉에 탑승한 사람들의 신상정보를 활용하여, 승선한 사람들의 생존...