Posts 독립과 상관, 공분산과 상관계수, 베르누이 분포와 이항분포
Post
Cancel

독립과 상관, 공분산과 상관계수, 베르누이 분포와 이항분포

1. 독립과 상관


1.1 독립과 상관은?

  • 상관 : 표본값이 달라지면 다른 확률변수의 조건부 분포가 달라지는것
  • 독립 : 두 확률변수가 상관관계가 아닐때
  • 두 확률변수 X,Y의 결합확률밀도함수가 주변확률밀도함수의 곱과 강으면 서로 독립


1.2 반복 시행

  • 같은 확률변수에서 복수의 표본 데이터를 취하는 경우에는 이 표본들은 서로 독립인 확률변수들에서 나온 표본


1.3 조건부 확률분포

  • 독립인 두 확률변수 X,Y의 조건부확률밀도함수는 주변확률밀도함수와 같다.


1.4 독립 확률변수의 기댓값

  • 독립인 두 확률변수 X,Y의 기댓값은 다음 성질을 만족한다.


1.5 독립 확률변수의 분산


2. 공분산과 상관계수


2.1 공분산과 상관계수란

  • 다변수 확률변수 간의 상관관계를 숫자로 나타낸것이 공분산, 상관계수


2.2 표본공분산

  • 자료가 평균값으로부터 얼마나 떨어져 있는지를 나타냄
  • 공분산의 부호는 X,Y 데이터가 같은 부호를 가지는지 다른 부호를 가지는지에 대한 지표


2.3 표본상관계수

  • 표본상관계수는 다음과 같이 공분산을 각각의 표본표준편차값으로 나누어 정규화 한다.


2.4 확률변수의 공분산과 상관계수

  • 두 확률변수 XY의 공분산
  • 두 확률변수 XY의 상관계수
  • 상관계수의 성질
    • : 완전 선형 상관관계
    • : 무상관(독립과는 다름)
    • : 완전선형 반상관관계
  • 상관계수는 스캐터플롯의 기울기와는 아무런 상관이 없다.


2.5 비선형 상관관계

  • 피어슨 상관계수는 두 확률변수의 관계가 선형관계일때만 제대로 된 계산값이 나옴


2.6 앤스콤 데이터

  • 피어슨 상관계수는 아웃라이어에 영향을 많이 받는다.


2.7 다변수 확률변수의 표본공분산

  • 특징행렬의 모든 조합에 대해 공분산을 한꺼번에 표기하기 위해 표본공분산행렬을 정의
  • 표본공분산행렬
  • 대각성분 : 각각 확률변수의 분산
  • 비대각성분 : 서로 다른 확률변수의 공분산


2.8 다변수 확률변수의 공분산

  • M개의 다변수 확률변수 벡터
  • 이론적 공분산행렬은 <img src = https://latex.codecogs.com/gif.latex?\Sigma>로 표기하며 다음과 같이 정의 함


3. 조건부기댓값과 예측 문제


3.1 조건부 기댓값

  • 확률변수 Y의 기댓값을 구할때 조건부 밀도함수를 이용하여 가중치를 계산하면 조건부기댓값 혹은 조건부평균이 된다.
  • 조건부 기댓값은 조건이 되는 확률변수의 값에 따라서 값이 달라지는 확률변수


3.2 예측 문제

  • 예측 : 두 확률변수가 X,Y에서 X값을 알고 있을때 Y값을 알아내는 것
  • 회귀분석 : 연속확률변수일때의 예측
  • 분류 : 이산확률변수일때의 예측


3.3 조건부 기댓값의 성질

  • 조건부기댓값 E[Y|X]가 X의 함수, 즉 변환이므로 조건부기댓값 E[Y|X]도 확률변수다.
  • 만약 확률변수 Y가 확룰변수 X값을 독립변수로 하는 결정론적 함숫값이라면
  • 사용자가 X값을 어떤 값 x로 정하는 순간 Y값도 결정되어 버리기 때문에는 더는 확률 적인 값이 아니라 상수다.
  • 같은 방식으로 확률변수 XY가 결정론적 함수 관계가 아닐 때도 다음 등식이 성립한다.


3.4 전체 기댓값의 법칙

  • 전체 기댓값의 법칙 : 조건부기댓값은 확률변수이므로 조건이 되는 확률변수에 대해 다시 기댓값을 구할 수 있다. 이렇게 반복하여 구한 조건부기댓값의 기댓값은 원래확률변수의 기댓값과 같다.


3.5 조건부 분산

  • x값을 알고 있을때 이에 대한 조건부확률분포 의 분산이다.


3.6 전체 분산의 법칙

  • 확률변수의 분산은 조건부분산의 기댓값과 조건부기댓값의 분산의 합과 같다.


4. scipy를 이용한 확률분포 분석


4.1 확률분포 클래스

  • 종류명령확률분포
    이산bernoulli베르누이분포
    이산binom이항분포
    이산multinomial다항분포
    연속uniforn균일분포
    연속norm정규분포
    연속beta베타분포
    연속gamma감마분포
    연속t스튜던트 t분포
    연속chi2카이제곱분포
    연속fF분포
    연속dirichlet디리클리분포
    연속multivariatie_normal다변수 정규분포
  • sp.stats.norm()처럼 생성


4.2 모수 지정

1
rv = sp.stats.norm(loc=1, scale=2)
  • loc : 분포의 기댓값
  • scale : 분포의 표준편차


4.3 확률분포 메서드

  • 메서드기능
    pmf확률질량함수
    pdf확률밀도함수
    cmf누적분포함수
    ppf누적분포함수의 역함수
    sf생존함수
    isf생존함수의 역함수
    rvs랜덤 표본 생성


4.4 무작위 표본 생성

1
rv.rvs(size=(3, 5), random_state=0)
  • size : 표본 생성 시 생성될 표본 크기
  • random_state : 표본 생성 시 사용되는 seed 값


5. 베르누이분포와 이항분포


5.1 베르누이시행

  • 결과가 두 가지 중 하나로만 나오는 실험이나 시핼


5.2 베르누이 확률변수

  • 베르누이 시행의 결과를 0 또는 1로 바꾼 것


5.3 베르누이 확률분포

  • 베르누이 확률변수의 분포


5.4 scipy를 사용한 베르누이 확룰변수의 시뮬레이션

1
2
mu = 0.6
rv = sp.stats.bernoulli(mu)
  • 사이파이의 stats.bernolli로 생성
  • mu : 분포의 모수 (동전의 앞이 나올확률이 0.6)


5.5 베르누이분포의 모멘트

  • 기댓값
  • 분산


5.6 이항분포

  • 베르누이 분포 : 표본데이터가 1개
  • 이항분포 : 표본데이터가 N개
  • 이항분포 확률변수 X의 확률질량함수


5.7 사이파이를 사용한 이항분포의 시뮬레이션

1
2
3
4
N = 10
mu = 0.6
rv = sp.stats.binom(N, mu)

  • 사이파이의 stats.binom으로 생성
  • N : 횟수
  • mu : 모수


5.8 베르누이분포와 이항분포의 모수추정

  • 모수추정 : 데이터에서 모수의 값을 찾아내는 것


5.9 베르누이분포의 활용

  • 베이지안 관점 : 분류예측 문제의 출력 데이터가 두 값으로 구분되는 카테고리값인 경우에 분류 결과 즉, 두값중 어느 값이 가능성이 높은지 표현하는데 사용
  • 빈도주의적 관점 : 입력데이터가 0또는 1혹은 참 또는 거짓, 두 개의 값으로 구분되는 카테고리 값인 경우, 두 종류의 값이 나타내는 비율을 표현하는데 사용
This post is licensed under CC BY 4.0 by the author.

확률변수와 상관관계, 분산과 표준편차

Database 기초

Comments powered by Disqus.