1. 독립과 상관
1.1 독립과 상관은?
- 상관 : 표본값이 달라지면 다른 확률변수의 조건부 분포가 달라지는것
- 독립 : 두 확률변수가 상관관계가 아닐때
- 두 확률변수 X,Y의 결합확률밀도함수가 주변확률밀도함수의 곱과 강으면 서로 독립
1.2 반복 시행
- 같은 확률변수에서 복수의 표본 데이터를 취하는 경우에는 이 표본들은 서로 독립인 확률변수들에서 나온 표본
1.3 조건부 확률분포
- 독립인 두 확률변수 X,Y의 조건부확률밀도함수는 주변확률밀도함수와 같다.
1.4 독립 확률변수의 기댓값
- 독립인 두 확률변수 X,Y의 기댓값은 다음 성질을 만족한다.
1.5 독립 확률변수의 분산
2. 공분산과 상관계수
2.1 공분산과 상관계수란
- 다변수 확률변수 간의 상관관계를 숫자로 나타낸것이 공분산, 상관계수
2.2 표본공분산
- 자료가 평균값으로부터 얼마나 떨어져 있는지를 나타냄
- 공분산의 부호는 X,Y 데이터가 같은 부호를 가지는지 다른 부호를 가지는지에 대한 지표
2.3 표본상관계수
- 표본상관계수는 다음과 같이 공분산을 각각의 표본표준편차값으로 나누어 정규화 한다.
2.4 확률변수의 공분산과 상관계수
- 두 확률변수 X와 Y의 공분산
- 두 확률변수 X와 Y의 상관계수
- 상관계수의 성질
- : 완전 선형 상관관계
- : 무상관(독립과는 다름)
- : 완전선형 반상관관계
- 상관계수는 스캐터플롯의 기울기와는 아무런 상관이 없다.
2.5 비선형 상관관계
- 피어슨 상관계수는 두 확률변수의 관계가 선형관계일때만 제대로 된 계산값이 나옴
2.6 앤스콤 데이터
- 피어슨 상관계수는 아웃라이어에 영향을 많이 받는다.
2.7 다변수 확률변수의 표본공분산
- 특징행렬의 모든 조합에 대해 공분산을 한꺼번에 표기하기 위해 표본공분산행렬을 정의
- 표본공분산행렬
- 대각성분 : 각각 확률변수의 분산
- 비대각성분 : 서로 다른 확률변수의 공분산
2.8 다변수 확률변수의 공분산
- M개의 다변수 확률변수 벡터
- 이론적 공분산행렬은 <img src = https://latex.codecogs.com/gif.latex?\Sigma>로 표기하며 다음과 같이 정의 함
3. 조건부기댓값과 예측 문제
3.1 조건부 기댓값
- 확률변수 Y의 기댓값을 구할때 조건부 밀도함수를 이용하여 가중치를 계산하면 조건부기댓값 혹은 조건부평균이 된다.
- 조건부 기댓값은 조건이 되는 확률변수의 값에 따라서 값이 달라지는 확률변수
3.2 예측 문제
- 예측 : 두 확률변수가 X,Y에서 X값을 알고 있을때 Y값을 알아내는 것
- 회귀분석 : 연속확률변수일때의 예측
- 분류 : 이산확률변수일때의 예측
3.3 조건부 기댓값의 성질
- 조건부기댓값 E[Y|X]가 X의 함수, 즉 변환이므로 조건부기댓값 E[Y|X]도 확률변수다.
- 만약 확률변수 Y가 확룰변수 X값을 독립변수로 하는 결정론적 함숫값이라면
- 사용자가 X값을 어떤 값 x로 정하는 순간 Y값도 결정되어 버리기 때문에는 더는 확률 적인 값이 아니라 상수다.
- 같은 방식으로 확률변수 X와 Y가 결정론적 함수 관계가 아닐 때도 다음 등식이 성립한다.
3.4 전체 기댓값의 법칙
- 전체 기댓값의 법칙 : 조건부기댓값은 확률변수이므로 조건이 되는 확률변수에 대해 다시 기댓값을 구할 수 있다. 이렇게 반복하여 구한 조건부기댓값의 기댓값은 원래확률변수의 기댓값과 같다.
3.5 조건부 분산
- x값을 알고 있을때 이에 대한 조건부확률분포 의 분산이다.
3.6 전체 분산의 법칙
- 확률변수의 분산은 조건부분산의 기댓값과 조건부기댓값의 분산의 합과 같다.
4. scipy를 이용한 확률분포 분석
4.1 확률분포 클래스
종류 명령 확률분포 이산 bernoulli
베르누이분포 이산 binom
이항분포 이산 multinomial
다항분포 연속 uniforn
균일분포 연속 norm
정규분포 연속 beta
베타분포 연속 gamma
감마분포 연속 t
스튜던트 t분포 연속 chi2
카이제곱분포 연속 f
F분포 연속 dirichlet
디리클리분포 연속 multivariatie_normal
다변수 정규분포 sp.stats.norm()
처럼 생성
4.2 모수 지정
1
rv = sp.stats.norm(loc=1, scale=2)
- loc : 분포의 기댓값
- scale : 분포의 표준편차
4.3 확률분포 메서드
메서드 기능 pmf 확률질량함수 pdf 확률밀도함수 cmf 누적분포함수 ppf 누적분포함수의 역함수 sf 생존함수 isf 생존함수의 역함수 rvs 랜덤 표본 생성
4.4 무작위 표본 생성
1
rv.rvs(size=(3, 5), random_state=0)
- size : 표본 생성 시 생성될 표본 크기
- random_state : 표본 생성 시 사용되는 seed 값
5. 베르누이분포와 이항분포
5.1 베르누이시행
- 결과가 두 가지 중 하나로만 나오는 실험이나 시핼
5.2 베르누이 확률변수
- 베르누이 시행의 결과를 0 또는 1로 바꾼 것
5.3 베르누이 확률분포
- 베르누이 확률변수의 분포
5.4 scipy를 사용한 베르누이 확룰변수의 시뮬레이션
1
2
mu = 0.6
rv = sp.stats.bernoulli(mu)
- 사이파이의 stats.bernolli로 생성
- mu : 분포의 모수 (동전의 앞이 나올확률이 0.6)
5.5 베르누이분포의 모멘트
- 기댓값
- 분산
5.6 이항분포
- 베르누이 분포 : 표본데이터가 1개
- 이항분포 : 표본데이터가 N개
- 이항분포 확률변수 X의 확률질량함수
5.7 사이파이를 사용한 이항분포의 시뮬레이션
1
2
3
4
N = 10
mu = 0.6
rv = sp.stats.binom(N, mu)
- 사이파이의 stats.binom으로 생성
- N : 횟수
- mu : 모수
5.8 베르누이분포와 이항분포의 모수추정
- 모수추정 : 데이터에서 모수의 값을 찾아내는 것
5.9 베르누이분포의 활용
- 베이지안 관점 : 분류예측 문제의 출력 데이터가 두 값으로 구분되는 카테고리값인 경우에 분류 결과 즉, 두값중 어느 값이 가능성이 높은지 표현하는데 사용
- 빈도주의적 관점 : 입력데이터가 0또는 1혹은 참 또는 거짓, 두 개의 값으로 구분되는 카테고리 값인 경우, 두 종류의 값이 나타내는 비율을 표현하는데 사용