Posts
기록
Cancel

1. 시카고 매거진 1.1 시카고 매거진 https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/ 미국 시카고 매거진의 베스트 50개의 샌드위치 맛집 리스트 메뉴와 가게 이름이 정리 1.2 가게 상세 페이지 각각소개한 50개의...

1. 네이버 영화 평점 1.1 네이버 영화 평점 https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&date=20201021 네이버 영화에서 영화 평점을 크롤링 해보도록 해보자 학습용으로 서버에부하되지않을 정도로만 크롤링하자. 너무많이 크롤링하면 네이버측에서 제제가 들어올수 ...

1. Mall Customer Segmentation Data 1.1 Mall Customer Segmentation Data Kaggle에 있는 쇼핑몰 고객 데이터 https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python 2. Mall Customer...

1.K-Means 1.1 K-Means 군집화에서 가장 일반적인 알고리즘 군집 중심이라는 임의의 지점을 선핵해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 일반적인 군집화에서 가장 많이 사용되는 기법 거리 기반 알고리즘으로 속성의 개수(K)가 매우 많을 경우 군집화의 정확도가 떨어짐 1.2 원리 초기 중심...

1. 네이버 영화 1.1 네이버 영화 평점 https://movie.naver.com/movie/point/af/list.nhn 관객이 영화를 관람 후 리뷰와 함께 평점을 0점 ~ 10점 까지의 점수를 남김 영화의 리뷰와 함께 평점을 크롤링해와서 감성분석에 사용 1.2 Data Load import pandas as pd tr...

1. 나이브 베이즈를 활용한 유사 문서 검색 1.1 뉴스 문서 Load from sklearn.datasets import fetch_20newsgroups categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med'] twenty_train = fetch_2...

1. 정밀도와 재현율의 트레이드 오프 1.1 Wine Data로 실습 import pandas as pd wine_url = 'https://raw.githubusercontent.com/hmkim312/datas/main/wine/wine.csv' wine = pd.read_csv(wine_url, index_col=0) wine['tast...

1. 시계열 분석 1.1 시계열 분석이란? 주가, 환율 거래량 변동 기온, 습도, 변화 수요량, 판매량, 클릭율 변화 인구, 출생률 변화 시간의 흐름에 따라 규칙이 있는 데이터는 수학적 모델이 필요함 1.2 시간적 요소를 분석 추세 파악 : 작위 적인 잡음을 제거하여 큰 흐름 파악 원인 예측 및 대응 : 매출이 ...

1. 문장 사이의 거리 1.1 문장 사이의 거리 평면이든 공간이든 두점 사이의 거리는 구할 수 있음 비교해야할 문장을 벡터로 표현할 수 있다면 거리를 구할수 있을것 같다. 1.2 Count Vectorizer from sklearn.feature_extraction.text import CountVectorizer vecto...

1. 타이타닉 EDA 1.1 데이터 로드 import pandas as pd titanic = pd.read_excel('https://github.com/hmkim312/datas/blob/main/titanic/titanic.xls?raw=true') titanic.head() pclass ...