Today
- 파라미터 튜닝을 통해 오버피팅되는 모델을 적당한 수준으로 만들었음
- F1 Score로 BaseLine 0.2에서 0.5 수준으로 성능을 올림.
- 전체 데이터로 개발 캠프, 비개발 데이터로 비개발 캠프를 하는게 좋아보이긴함.
- 파라미터 튜닝 너무 지루함..
- PCA말고 비선형 Dimension Reduction이 있다는것을 알게 됨.
TIL
- PCA : 분산이 최대인 축을 찾고, 이 축과 직교이면서 분산이 최대인 두번째 축을 찾아 투영시키는 방식
- t-sne : t 분포를 이용해 하나의 기준점을 정하고 모든 다른 데이터와 거리를 구한 후 그 값에 해당하는 t 분포 값을 선택, 값이 유사한 데이터끼리 묶어줌
- IsoMap : 이웃에 있는 점들과의 거리만을 사용하며 멀리 떨어진 점들과의 거리는 이웃한 점들을 이어서 사용함
오늘의 결론
- 업무를 진행하면서 모르던것을을 조금씩 알게되는게 좋다.