Posts 확률변수와 상관관계, 분산과 표준편차
Post
Cancel

확률변수와 상관관계, 분산과 표준편차

1.확률적 데이터와 확률변수


1.1 확률적 데이터

  • 결정론적 데이터 : 항상 같은 값이 나오는 데이터
  • 확률적 데이터 : 정확히 예측할 수 없는 값이 나오는 데이터
  • 결합확률 : 사건 A와 B가 동시에 발생할 확률


1.2분포

  • 확률적 데이터에서 어떠한 값이 자주 나오고, 어떠한 값이 드물게 나오는가를 나타내는 정보
  • 카운트 플롯 : 범주형 데이터
  • 히스토그램 : 실수형 데이터


1.3 기술통계

  • 분포의 특징을 나타내는 여러가지 숫자를 계산하여 그 숫자로 분포를 나타내는것
  • 표본평균, 표본중앙값, 표본최빈값
  • 표본분산, 표본표준편차
  • 표본왜도, 표본첨도


1.4 표본평균

  • 확률적인 데이터 값을 대표하는 기술통계 값


1.5 표본중앙값

  • 전체 자료를 크기별로 정렬했을때 가장 중앙에 위치하는 값
  • 표본개수가 N일때
    • N이 홀수 : 중앙값은 (N+1)/2 번째 표본의 값
    • N이 짝수 : 중앙값은 N/2번째 표본의 값과 N/2+1번째 표본 값의 평균


1.6 표본최빈값

  • 데이터값 중 가장 빈번하게 나오는 값


1.7 파이썬을 사용한 대푯값 계산

1
2
3
4
mean()
median()
argmax()
histogram()
  • mean() : 표본평균 계산
  • median() : 표본중앙값 계산
  • argmax() : 이산데이터의 최댓값 계산
  • histogram() : 데이터를 구간으로 나누어 각 구간에 들어가는 데이터 수 계산


1.8 단봉분포와 다봉분포

  • 단봉분포 : 분포의 모양에서 봉우리가 한개
  • 다봉분포 : 분포의 모양에서 봉우리가 두개 이상


1.9 대칭분포

  • 분포가 평균을 기준인 대칭분포이면 표본중앙값은 표본평균과 같다.
  • 대칭분포이며 하나의 최고값만을 가지는 단봉분포이면 표본최빈값은 표본평균과 같다.
  • 대칭분포를 비대칭으로 만드는 데이터가 더해지면 표본평균이 가장 크게 영향을 받고 표본최빈값이 가장 적게 영향을 받는다.


1.10 분산과 표준편차

  • 분산 : 폭을 대표하는 값


1.11 파이썬을 사용한 표본분산 및 표본표준편차의 계산

1
2
var()
std()
  • var() : 표본본산
  • std() : 표본표준편차


1.12 표본비대칭도

  • 평균과의 거리의 세게곱을 이용하여 구한 특징값
  • 표본비대칭도가 0이면 대칭분포


1.13 표본첨도

  • 평균과의 네제곱을 이용하여 구한 특징값
  • 데이터가 중앙에 몰린 정도를 정밀하게 비교하는데 쓰임


1.14 표본모멘트

  • k제곱을 이용하여 구한 모멘트


1.15 확률변수

  • 수학적으로 확률공간의 표본을 입력으로 받아서 실수인 숫자로 바꾸어 출력하는 함수


1.16 이산확률변수

  • 확률변수값이 연속적이지 않고 떨어져 있도록 정의하는것


1.17연속확률변수

  • 련속적이고 무한대의 실수 표본값을 가지는 확률변수


1.18 확률변수는 데이터생성기

  • 표본이 현실 세계의 데이터로 선택되는것을 실현 또는 표본화라고함
  • 표본화 : 많은수의 데이터의 집합에서 일부데이터만 선택되는 과정
  • 확률변수로부터 데이터를 여러 번 생성하는 경우 실제 데이터값은 매번 달라질 수 있지만, 확률변수 자체는 변하지 않는다.
  • 확률변수의 확률분포함수는 우리가 직접 관찰할 수 없다. 다만 확률변수에서 만들어지는 실제 데이터값을 이용하여 확률분포함수가 이러한 것일 거라고 추정할 뿐이다.
  • 확률변수에서 만들어지는 실제 데이터 값은 확률변수가 가진 특성을 반영하고 있다. 데이터가 많을수록 더 정확하게 확률분포함수를 묘사한다.


1.19 확률변수를 사용한 데이터 분석

  • 데이터값에서 호가률변수의 확률분포함수를 역설계하여 만들어내는 과정
  • 기술통계값을 사용한다.


2. 기댓값과 확률변수의 변환


2.1 확률변수의 기대값

  • 확률변수의 확률밀도함수를 알면 확률변수의 이론적 평균값을 구할 수 있다. 이러한 이론적 평균을 확률변수의 기대값이라고 한다. 단순히 평균 이라고도 한다
  • 이산확률변수의 기댓값은 표본공간의 원소 의 가중평균이다.
  • 연속확률변수의 기댓값은 확률밀도 함수p(x)를 가중치로하여 모든 가능한 표본 x를 적분한것
  • 기댓값 : 여러 가능한 x값을 확률값에 따라 가중합을 한것이므로 가장 확률(또는 확률밀도)이 높은 x값 근처의 값이 된다. 즉, 확률또는 확률밀도가 모여 있는 곳의 위치를 나타낸다.


2.2 확률변수의 변환

  • 기존의 확률변수를 사용하여 새로운 확률변수를 만드는것


2.3 기댓값의 성질

  • 확률변수가 아닌 상수 c에 대해
  • 선형성


2.4 통계량

  • 데이터의 집합의 모든 값을 정해진 어떤 공식에 넣어서 하나의 숫자를 구한것


2.5 표본평균 확률변수

  • 확률변수로부터 N개의 표본을 만들어 이 표본집합의 표본평균을 구하면 이렇게 구한 표본평균값도 확률변수가 됨.


2.6 기댓값과 표본평균의 관계

  • 표본평균의 기댓값은 원래의 확률변수의 기댓값과 같다.
  • 표본평균은 확률변수의 기댓값 근처의 값이다.


2.7 중앙값

  • 확률변수의 중앙값은 중앙값보다 큰 값이 나올 확률과 작은 값이 나올 확률이 0.5로 같은 값


2.8 최빈값

  • 이산확률분포 : 가장 확률값이 큰 수
  • 연속확률분포 : 확률밀도함수 px의 값이 가장 큰 확률 변수의 값


3. 분산과 표준편차


3.1 확률분포의 분산


3.2 이산확률변수의 분산

  • 평균으로부터 표본데이터까지 거리의 제곱을 확률질량함수p(x)로 가중하여 더한값


3.3 연속확률변수의 분산

  • 평균으로부터 표본데이터까지 거리의 제곱을 확률밀도함수p(x)로 가중하여 적분한 값


3.4 분산의 성질

  • 분산은 항상 0 또는 양수다
  • 확룰변수가 아닌 상수값 c에 대해 다음식이 성립한다
  • 기댓값의 성질로 인해
  • 또는


3.5 두 확률변수의 합의 분산


3.6 확률변수의 독립

  • 독립 : 두 확률변수가 서로에게 영향을 미치지 않는다
  • 종속 : 두 확률변수가 서로에게 영향을 미친다.
  • 두 확률변수 X,Y가 서로 독립이면 다음의 식이 성립한다.
  • 서로 독립인 두 확률변수의 합의 분산은 각 확률변수의 분산의 합과 같다.


3.7 표준평균의 분산

  • 표본평균을 계산한 표본개수가 커지면 표본평균의 값의 변동은 작아진다.


3.8 표본분산의 기댓값

  • 표본분산값이 이론적인 분산값보다 더 작다.
  • 따라서 기댓값이 정확한 분산값과 일치하는 비편향 표본분산은 아래와 같다.

3.9 비대칭도와 첨도

  • 비대칭도 : 3차 모멘트 값에서 계산하며 확률밀도함수의 비대칭정도를 가리킨다.
  • 첨도 : 4차 모멘트 값에서 계산하며 확률이 정규분포와 대비하여 중심에 모였는지 바깥에 퍼졌는지를 나타낸다.


3.10 모멘트

  • 확률분포에서 계산한 특징값.


4. 다변수 확률변수


4.1 결합확률질량함수

  • 하나 하나의 숫자 쌍에 대해 확률을 알려주는 함수만 있으면 전체 확률분포를 알수 있다.


4.2 주변확률질량함수

  • 두 확률변수 중 하나의 확률변수값에 대해서만 확률분포를 표시한 함수


4.3 조건부확률질량함수

  • 다변수 확률변수 중 하나의 값이 특정값으로 고정되어 상수가 되어 버린 경우 나머지 벼수에 대한 확률질량 함수
  • 조건부확률질량함수의 합은 1이다


4.4 다변수 연속확률변수

  • 누적확률분포함수를 먼저 정의한 후 이를 미분하여 확률밀도함수를 정의함


4.5 결합누적확률분포함수

  • 두 연속확률변수 X,Y에 대한 결합누적확률분포함수 pxy(x,y)는 다음과 같다
  • 다음과 같은 특성을 가진다.


4.6 결합확률밀도함수

  • 결합누적확률분포함수를 미분하여 정의
  • 독립변수가 2개이므로 각각에 대해 모두 편미분


4.7 주변확률밀도함수

  • 결합확률밀도함수를 특정한 하나의 변수에 대해 가중평균한 값


4.8 조건부확률밀도함수

  • 다변수 확률변수 중 하나의 값이 특정값이라는 사실이 알려진 경우, 이러한 조건에 의해 변화한 나머지 확률변수에 대한 확률밀도함수
This post is licensed under CC BY 4.0 by the author.