Posts
Data Include Me
Cancel

1. 교차 검증 과적합 : 모델이 학습 데이터에마 과도하게 최적화된 현상. 그로인해 일반화된 데이터에서는 예측 성능이 과하게 떨어지는 현상 지난번 와인 맛 평가에서 훈련용 데이터의 Acc는 72.94, 테스트용 데이터는 Acc가 71.61%였는데, 누가 이결과가 정말 괜찮은 것인지 묻는다면? 나에게 주어진 데이터에 적용한 모델의 성능을 정...

1. 파이프라인(Pipeline) 1.1 Pipeline란 데이터를 가지고 분류기를 실행시킬때 하이퍼파라미터나 스케일러 등의 적용을 하다보면 코드의 순서가 바뀌는 등의 어려운 점이 있다. 해당 불편함을 해결해주는 Sklearn의 Pipeline이 있다. 쉽게 생각하여 데이터가 내가 설정한 대로 Pipe를 통과하여 여러개의 분류기나 스케일러...

1. MinMax, Standard 스케일러 1.1 스케일러(Scaler) 실수(숫자, 소수점)으로 된 데이터들을 일정한 범위를 가진 수치로 변경하기 위해 필요함 예를들어 어떤 데이터에서 A컬럼은 0 ~ 100의 값을 가지고, B의 컬럼은 0.1 ~ 1을 가진다고 하면 두 컬럼의 데이터들은 간격이 너무 큰 수치들로 이루어져있음 컬럼들의 최...

1. Git Contribution(잔디) 안올라갈때 1.1 git config에 user.name, user.email이 안맞을경우 잔디가 안올라가는 폴더에서 name과 email이 등록되어 있는지 확인 cd /잔디가 안올라가는 폴더로 이동 git config --list 전역으로 user.name, user.eamil...

1. Zip과 언패킹 1.1 리스트를 튜플로 zip list1 = ['a', 'b', 'c'] list2 = [1, 2, 3] pairs = [pair for pair in zip(list1, list2)] pairs [('a', 1), ('b', 2), ('c', 3)] zip을 이용하여 두개의 list를 tuple형태로 묶을수 ...

1. 머신러닝 1.1 지도학습이란 학습 대상이 되는 데이터에 정답(label)을 붙여서 학습 시키고 모델을 얻어서 완전히 새로운 데이터에 모델을 사용해서 ‘답’을 얻고자 하는것 1.2 데이터의 분리 (훈련(train)/ 검증(validation)/ 평가(test)) 전체 데이터에서 train / test 로 데이터를 분리하고 tr...

1. 머신 러닝이란? 1.1 머신러닝의 교과서적 정의 명시적으로 프로그래밍을 하지 않고 컴퓨터에 학습할 수 있는 능력을 부여여한 학문 과거의 데이터로부터 얻은 경험이 쌓여 감에 따라 주어진 태스크의 성능이 점점 좋아질 때 컴퓨터 프로그램은 경험으로부터 학습한다. Machine이 주어진 데이터를 통해 규칙을 찾는것 2. 의사결정나무(De...

타이타닉 튜토리얼 만약 데이터 사이언스, 머신러닝 또는 캐글에서 어떤 것을 해야하는 지 잘 모르는 newbie 라면, 타이타닉을 하시는 게 가장 좋은 선택입니다. 타이타닉은 아시다시피, 사상 최대 해난사고로써, 1,500여명의 희생자가 생겼습니다. 우리는 이 튜토리얼에서 타이타닉에 탑승한 사람들의 신상정보를 활용하여, 승선한 사람들의 생존...

1. Regular Express 1.1 연습용 문장 import re search_target = '''Luke Skywarker 02-123-4567 luke@daum.net 다스베이더 070-9999-9999 darth_vader@gmail.com 서울시 서초구 서초동 서초아파트 princess leia 010 2454 3457 leia@g...

URL : https://www.hackerrank.com/challenges/python-tuples/problem Task Given an integer, n, and n space-separated integers as input, create a tuple, t, of those n integers. Then com...