Posts
Data Include Me
Cancel

1. Mall Customer Segmentation Data 1.1 Mall Customer Segmentation Data Kaggle에 있는 쇼핑몰 고객 데이터 https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python 2. Mall Customer...

1.K-Means 1.1 K-Means 군집화에서 가장 일반적인 알고리즘 군집 중심이라는 임의의 지점을 선핵해서 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 일반적인 군집화에서 가장 많이 사용되는 기법 거리 기반 알고리즘으로 속성의 개수(K)가 매우 많을 경우 군집화의 정확도가 떨어짐 1.2 원리 초기 중심...

1. 네이버 영화 1.1 네이버 영화 평점 https://movie.naver.com/movie/point/af/list.nhn 관객이 영화를 관람 후 리뷰와 함께 평점을 0점 ~ 10점 까지의 점수를 남김 영화의 리뷰와 함께 평점을 크롤링해와서 감성분석에 사용 1.2 Data Load import pandas as pd tr...

1. 나이브 베이즈를 활용한 유사 문서 검색 1.1 뉴스 문서 Load from sklearn.datasets import fetch_20newsgroups categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med'] twenty_train = fetch_2...

1. 정밀도와 재현율의 트레이드 오프 1.1 Wine Data로 실습 import pandas as pd wine_url = 'https://raw.githubusercontent.com/hmkim312/datas/main/wine/wine.csv' wine = pd.read_csv(wine_url, index_col=0) wine['tast...

1. 시계열 분석 1.1 시계열 분석이란? 주가, 환율 거래량 변동 기온, 습도, 변화 수요량, 판매량, 클릭율 변화 인구, 출생률 변화 시간의 흐름에 따라 규칙이 있는 데이터는 수학적 모델이 필요함 1.2 시간적 요소를 분석 추세 파악 : 작위 적인 잡음을 제거하여 큰 흐름 파악 원인 예측 및 대응 : 매출이 ...

1. 문장 사이의 거리 1.1 문장 사이의 거리 평면이든 공간이든 두점 사이의 거리는 구할 수 있음 비교해야할 문장을 벡터로 표현할 수 있다면 거리를 구할수 있을것 같다. 1.2 Count Vectorizer from sklearn.feature_extraction.text import CountVectorizer vecto...

1. 타이타닉 EDA 1.1 데이터 로드 import pandas as pd titanic = pd.read_excel('https://github.com/hmkim312/datas/blob/main/titanic/titanic.xls?raw=true') titanic.head() pclass ...

1. Naver API 1.1 API API : Application Programming Interface 네이버, 페이스북, 구글 등 IT 거대 기업들과 같은 많은 SW관련 회사들이 자사 서비스와 관련한 API를 제공함 웹 크롤링에 대한 법적 문제가 대두되고 있는 상황에 따라 해당 회사에서 제공하는 API를 사용하는것이 바람직 할수...

1. 네이버 금융 1.1 네이버 금융의 환율 Crawling 네이버 금융의 시장지표 https://finance.naver.com/marketindex/ 미국 환율은 span 태그의 value 클래스 1.2 파싱(parsing) from bs4 import BeautifulSoup from urllib.request impo...