Posts 확률변수와 상관관계, 분산과 표준편차
Post
Cancel

확률변수와 상관관계, 분산과 표준편차

1.확률적 데이터와 확률변수


1.1 확률적 데이터

  • 결정론적 데이터 : 항상 같은 값이 나오는 데이터
  • 확률적 데이터 : 정확히 예측할 수 없는 값이 나오는 데이터
  • 결합확률 : 사건 A와 B가 동시에 발생할 확률


1.2분포

  • 확률적 데이터에서 어떠한 값이 자주 나오고, 어떠한 값이 드물게 나오는가를 나타내는 정보
  • 카운트 플롯 : 범주형 데이터
  • 히스토그램 : 실수형 데이터


1.3 기술통계

  • 분포의 특징을 나타내는 여러가지 숫자를 계산하여 그 숫자로 분포를 나타내는것
  • 표본평균, 표본중앙값, 표본최빈값
  • 표본분산, 표본표준편차
  • 표본왜도, 표본첨도


1.4 표본평균

  • 확률적인 데이터 값을 대표하는 기술통계 값


1.5 표본중앙값

  • 전체 자료를 크기별로 정렬했을때 가장 중앙에 위치하는 값
  • 표본개수가 N일때
    • N이 홀수 : 중앙값은 (N+1)/2 번째 표본의 값
    • N이 짝수 : 중앙값은 N/2번째 표본의 값과 N/2+1번째 표본 값의 평균


1.6 표본최빈값

  • 데이터값 중 가장 빈번하게 나오는 값


1.7 파이썬을 사용한 대푯값 계산

1
2
3
4
mean()
median()
argmax()
histogram()
  • mean() : 표본평균 계산
  • median() : 표본중앙값 계산
  • argmax() : 이산데이터의 최댓값 계산
  • histogram() : 데이터를 구간으로 나누어 각 구간에 들어가는 데이터 수 계산


1.8 단봉분포와 다봉분포

  • 단봉분포 : 분포의 모양에서 봉우리가 한개
  • 다봉분포 : 분포의 모양에서 봉우리가 두개 이상


1.9 대칭분포

  • 분포가 평균을 기준인 대칭분포이면 표본중앙값은 표본평균과 같다.
  • 대칭분포이며 하나의 최고값만을 가지는 단봉분포이면 표본최빈값은 표본평균과 같다.
  • 대칭분포를 비대칭으로 만드는 데이터가 더해지면 표본평균이 가장 크게 영향을 받고 표본최빈값이 가장 적게 영향을 받는다.


1.10 분산과 표준편차

  • 분산 : 폭을 대표하는 값


1.11 파이썬을 사용한 표본분산 및 표본표준편차의 계산

1
2
var()
std()
  • var() : 표본본산
  • std() : 표본표준편차


1.12 표본비대칭도

  • 평균과의 거리의 세게곱을 이용하여 구한 특징값
  • 표본비대칭도가 0이면 대칭분포


1.13 표본첨도

  • 평균과의 네제곱을 이용하여 구한 특징값
  • 데이터가 중앙에 몰린 정도를 정밀하게 비교하는데 쓰임


1.14 표본모멘트

  • k제곱을 이용하여 구한 모멘트


1.15 확률변수

  • 수학적으로 확률공간의 표본을 입력으로 받아서 실수인 숫자로 바꾸어 출력하는 함수


1.16 이산확률변수

  • 확률변수값이 연속적이지 않고 떨어져 있도록 정의하는것


1.17연속확률변수

  • 련속적이고 무한대의 실수 표본값을 가지는 확률변수


1.18 확률변수는 데이터생성기

  • 표본이 현실 세계의 데이터로 선택되는것을 실현 또는 표본화라고함
  • 표본화 : 많은수의 데이터의 집합에서 일부데이터만 선택되는 과정
  • 확률변수로부터 데이터를 여러 번 생성하는 경우 실제 데이터값은 매번 달라질 수 있지만, 확률변수 자체는 변하지 않는다.
  • 확률변수의 확률분포함수는 우리가 직접 관찰할 수 없다. 다만 확률변수에서 만들어지는 실제 데이터값을 이용하여 확률분포함수가 이러한 것일 거라고 추정할 뿐이다.
  • 확률변수에서 만들어지는 실제 데이터 값은 확률변수가 가진 특성을 반영하고 있다. 데이터가 많을수록 더 정확하게 확률분포함수를 묘사한다.


1.19 확률변수를 사용한 데이터 분석

  • 데이터값에서 호가률변수의 확률분포함수를 역설계하여 만들어내는 과정
  • 기술통계값을 사용한다.


2. 기댓값과 확률변수의 변환


2.1 확률변수의 기대값

  • 확률변수의 확률밀도함수를 알면 확률변수의 이론적 평균값을 구할 수 있다. 이러한 이론적 평균을 확률변수의 기대값이라고 한다. 단순히 평균 이라고도 한다
  • 이산확률변수의 기댓값은 표본공간의 원소 의 가중평균이다.
  • 연속확률변수의 기댓값은 확률밀도 함수p(x)를 가중치로하여 모든 가능한 표본 x를 적분한것
  • 기댓값 : 여러 가능한 x값을 확률값에 따라 가중합을 한것이므로 가장 확률(또는 확률밀도)이 높은 x값 근처의 값이 된다. 즉, 확률또는 확률밀도가 모여 있는 곳의 위치를 나타낸다.


2.2 확률변수의 변환

  • 기존의 확률변수를 사용하여 새로운 확률변수를 만드는것


2.3 기댓값의 성질

  • 확률변수가 아닌 상수 c에 대해
  • 선형성


2.4 통계량

  • 데이터의 집합의 모든 값을 정해진 어떤 공식에 넣어서 하나의 숫자를 구한것


2.5 표본평균 확률변수

  • 확률변수로부터 N개의 표본을 만들어 이 표본집합의 표본평균을 구하면 이렇게 구한 표본평균값도 확률변수가 됨.


2.6 기댓값과 표본평균의 관계

  • 표본평균의 기댓값은 원래의 확률변수의 기댓값과 같다.
  • 표본평균은 확률변수의 기댓값 근처의 값이다.


2.7 중앙값

  • 확률변수의 중앙값은 중앙값보다 큰 값이 나올 확률과 작은 값이 나올 확률이 0.5로 같은 값


2.8 최빈값

  • 이산확률분포 : 가장 확률값이 큰 수
  • 연속확률분포 : 확률밀도함수 px의 값이 가장 큰 확률 변수의 값


3. 분산과 표준편차


3.1 확률분포의 분산


3.2 이산확률변수의 분산

  • 평균으로부터 표본데이터까지 거리의 제곱을 확률질량함수p(x)로 가중하여 더한값


3.3 연속확률변수의 분산

  • 평균으로부터 표본데이터까지 거리의 제곱을 확률밀도함수p(x)로 가중하여 적분한 값


3.4 분산의 성질

  • 분산은 항상 0 또는 양수다
  • 확룰변수가 아닌 상수값 c에 대해 다음식이 성립한다
  • 기댓값의 성질로 인해
  • 또는


3.5 두 확률변수의 합의 분산


3.6 확률변수의 독립

  • 독립 : 두 확률변수가 서로에게 영향을 미치지 않는다
  • 종속 : 두 확률변수가 서로에게 영향을 미친다.
  • 두 확률변수 X,Y가 서로 독립이면 다음의 식이 성립한다.
  • 서로 독립인 두 확률변수의 합의 분산은 각 확률변수의 분산의 합과 같다.


3.7 표준평균의 분산

  • 표본평균을 계산한 표본개수가 커지면 표본평균의 값의 변동은 작아진다.


3.8 표본분산의 기댓값

  • 표본분산값이 이론적인 분산값보다 더 작다.
  • 따라서 기댓값이 정확한 분산값과 일치하는 비편향 표본분산은 아래와 같다.

3.9 비대칭도와 첨도

  • 비대칭도 : 3차 모멘트 값에서 계산하며 확률밀도함수의 비대칭정도를 가리킨다.
  • 첨도 : 4차 모멘트 값에서 계산하며 확률이 정규분포와 대비하여 중심에 모였는지 바깥에 퍼졌는지를 나타낸다.


3.10 모멘트

  • 확률분포에서 계산한 특징값.


4. 다변수 확률변수


4.1 결합확률질량함수

  • 하나 하나의 숫자 쌍에 대해 확률을 알려주는 함수만 있으면 전체 확률분포를 알수 있다.


4.2 주변확률질량함수

  • 두 확률변수 중 하나의 확률변수값에 대해서만 확률분포를 표시한 함수


4.3 조건부확률질량함수

  • 다변수 확률변수 중 하나의 값이 특정값으로 고정되어 상수가 되어 버린 경우 나머지 벼수에 대한 확률질량 함수
  • 조건부확률질량함수의 합은 1이다


4.4 다변수 연속확률변수

  • 누적확률분포함수를 먼저 정의한 후 이를 미분하여 확률밀도함수를 정의함


4.5 결합누적확률분포함수

  • 두 연속확률변수 X,Y에 대한 결합누적확률분포함수 pxy(x,y)는 다음과 같다
  • 다음과 같은 특성을 가진다.


4.6 결합확률밀도함수

  • 결합누적확률분포함수를 미분하여 정의
  • 독립변수가 2개이므로 각각에 대해 모두 편미분


4.7 주변확률밀도함수

  • 결합확률밀도함수를 특정한 하나의 변수에 대해 가중평균한 값


4.8 조건부확률밀도함수

  • 다변수 확률변수 중 하나의 값이 특정값이라는 사실이 알려진 경우, 이러한 조건에 의해 변화한 나머지 확률변수에 대한 확률밀도함수
This post is licensed under CC BY 4.0 by the author.

결합, 조건부 확률과 베이즈 정리

독립과 상관, 공분산과 상관계수, 베르누이 분포와 이항분포

Comments powered by Disqus.