Posts
기록
Cancel

1. 나이브 베이즈를 활용한 유사 문서 검색 1.1 뉴스 문서 Load from sklearn.datasets import fetch_20newsgroups categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med'] twenty_train = fetch_2...

1. 정밀도와 재현율의 트레이드 오프 1.1 Wine Data로 실습 import pandas as pd wine_url = 'https://raw.githubusercontent.com/hmkim312/datas/main/wine/wine.csv' wine = pd.read_csv(wine_url, index_col=0) wine['tast...

1. 시계열 분석 1.1 시계열 분석이란? 주가, 환율 거래량 변동 기온, 습도, 변화 수요량, 판매량, 클릭율 변화 인구, 출생률 변화 시간의 흐름에 따라 규칙이 있는 데이터는 수학적 모델이 필요함 1.2 시간적 요소를 분석 추세 파악 : 작위 적인 잡음을 제거하여 큰 흐름 파악 원인 예측 및 대응 : 매출이 ...

1. 문장 사이의 거리 1.1 문장 사이의 거리 평면이든 공간이든 두점 사이의 거리는 구할 수 있음 비교해야할 문장을 벡터로 표현할 수 있다면 거리를 구할수 있을것 같다. 1.2 Count Vectorizer from sklearn.feature_extraction.text import CountVectorizer vecto...

1. 타이타닉 EDA 1.1 데이터 로드 import pandas as pd titanic = pd.read_excel('https://github.com/hmkim312/datas/blob/main/titanic/titanic.xls?raw=true') titanic.head() pclass ...

1. Naver API 1.1 API API : Application Programming Interface 네이버, 페이스북, 구글 등 IT 거대 기업들과 같은 많은 SW관련 회사들이 자사 서비스와 관련한 API를 제공함 웹 크롤링에 대한 법적 문제가 대두되고 있는 상황에 따라 해당 회사에서 제공하는 API를 사용하는것이 바람직 할수...

1. 네이버 금융 1.1 네이버 금융의 환율 Crawling 네이버 금융의 시장지표 https://finance.naver.com/marketindex/ 미국 환율은 span 태그의 value 클래스 1.2 파싱(parsing) from bs4 import BeautifulSoup from urllib.request impo...

1. 크롤링(Crawling) 1.1 크롤링이란? 웹 페이지를 가져와서 데이터를 추출하는것 크롤링하는 소프트웨어를 크롤러(crawler)라고 함 1.2 크롤링 소프트웨어 Beautifulsoup 2. 실습 2.1 간단한 사이트 크롤링하기 https://beans.itcarlow.ie/prices.html ...

1. 앙상블 기법 1.1 앙상블 기법 앙상블 학습을 통한 분류 : 여러 개의 분류기를 생성하고 그 예측을 결합하여 정확한 최종 예측을 기대하는 기법 앙상블 학습의 목표 : 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측 값을 얻는 것 정형 데이터를 대상으로 하는 분류기에서는 앙상블 기법이 뛰어난 성과를 보여...

1. 단일문서의 WordCloud 1.1 단일문서 불러오기 import nltk from konlpy.corpus import kobill file_ko = kobill.fileids() doc_ko = kobill.open('1809890.txt').read() print(doc_ko) 지방공무원법 일부개정법률안 (정의화의원 대표발의 ) ...