Stokastisk variabel

Fra testwiki
Version fra 19. jun. 2024, 11:47 af imported>SpreaderOfMisinformation imported>SpreaderOfMisinformation (Formel var skrevet forkert)
(forskel) ← Ældre version | Nuværende version (forskel) | Nyere version → (forskel)
Spring til navigation Spring til søgning

Skabelon:Harflertydig2 Skabelon:Kilder Skabelon:Svært stof En stokastisk variabel er inden for sandsynlighedsregning og statistik uformelt set en variabel, hvis værdi påvirkes af tilfældigheder. Dens mulige værdier er hver associeret med en vis sandsynlighed. Værdierne kunne f.eks. repræsentere de mulige udfald af et endnu ikke udført eksperiment. En stokastisk variabel kaldes i nogle tilfælde også en tilfældighedsvariabel, jf. det engelske random variable.

Stokastiske variable betegnes ofte med store bogstaver som f.eks. X, Y og Z.

Definition

Formelt set defineres en stokastisk variabel som en målbar afbildning X:(Ω,Σ)(E,) hvor (Ω,Σ) betegner et sandsynlighedsrum, for et passende sandsynlighedsmål P:Σ[0,1], og (E,) et målbart rum. I tilfældet hvor (E,)=(n,(n)) siger man at X er en reel stokastisk variabel.

En umiddelbar konsekvens af denne definition er, at urbilledet af en stokastisk variabel X inducerer et nyt sandsynlighedsmål PX:[1,0] givet ved PX(B):=P(X1(B)) for alle B. Det er sædvane at betegne PX(B) ved notationen P(XB).

Diskrete og kontinuerte stokastiske variable

Hvis billedet af Ω under X er højst tælleligt, altså hvis #X(Ω)#, siger vi at X er en diskret stokastisk variabel. I tilfældet hvor X(Ω)n og #X(Ω)># siger vi at X er en kontinuert stokastisk variabel.

Fordelingsfunktioner

Lader vi (,()) betegne vores sandsynlighedsrum med sandsynlighedsmål P:()[0,1], siger vi at funktionen F:[0,1] givet ved F(x):=P((,x]) er fordelingsfunktionen for P.

Fordelingsfunktionen siges at karakterisere funktionen: gælder der for to sandsynlighedsmål P1:()[0,1] og P2:()[0,1] at F1(x)=F2(x) for alle x, så følger det at P1=P2.

Fordelingsfunktioner for reelle stokastiske variable

Hvis X:(Ω,Σ)(,()) betegner en reel stokastisk variabel og P:Σ[0,1] et sandsynlighedsmål, siger vi at fordelingen af X er givet ved fordelingsfunktionen FX:[0,1] for PX og vi skriver her,

FX(x)=PX((,x])=P(Xx).

Simultane fordelinger

Definitionen for fordelingen af en reel stokastisk variabel inspirerer ydermere en naturlig udvidelse i det tilfælde hvor 𝐘:(Ω,Σ)(n,(n)) med 𝐘=(Y1,,Yn) betegner en flerdimensionel reel stokastisk variabel. Vi kan her tilsvarende definere en fordelingsfunktion F𝐘:n[0,1] hvor vi skriver,

F𝐘(𝐲)=P𝐘(×i=1n(,yi])=P(Y1y1,,Ynyn).

Vi siger i dette tilfælde at F𝐘 betegner den simultane fordeling af 𝐘.

Tætheder

Hvis fordelingsfunktionen for en reel stokastisk variabel X:(Ω,Σ)(,()) kan udtrykkes som μ-integralet af en funktion 1(,x]fX:(A,𝒜)(,()) for et mål μ:𝒜[0,], siger vi at X har tæthed fX mht. målet μ. I tilfældet hvor μ=λ er Lebesgue-målet og fX er Riemann-integrabel, siger vi ofte blot at X har tæthed fX og der gælder i dette tilfælde at,

FX(x)=1(,x]fXdλ=xfX(t)dt.

Eksempler på stokastiske variable

Da fordelingsfunktionen for en stokastisk variabel karakteriserer fordelingen, undlader man ofte diskussioner om det bagvedliggende sandsynlighedsrum (Ω,Σ), da det i de fleste steder er svært at beskrive og arbejde med eksplicit. Herunder giver vi dog nogle eksempler på eksplicit definerede stokastiske variable, samt også eksempler på stokastiske variable hvis fordeling defineres ud fra deres fordelingsfunktioner.

Diskret stokastisk variabel

Et eksempel på en diskret stokastisk variabel er summen af kast med terninger. Vi lader T:({1,,6},𝒫({1,,6}2))(,()) være en stokastisk variabel med et diskret ligefordelt sandsynlighedsmål P:𝒫({1,,6}2)[0,1], det vil sige P(A)=#A/36 for alle A𝒫({1,,6}2). Definerer vi her T(ω1,ω2)=ω1+ω2 ser vi at #T(Ω)=#T({1,,6}2)=#{2,12}# og T er derfor en diskret stokastisk variabel.

En fortolkning af T er per konstruktion at den betegner summen af øjne ved kast af 2 fair 6-sidede terninger. Vi kan her se at sandsynligheden for at få en sum af 5 øjne er givet ved,

P(T=5)=P(T1({5}))=P({(1,4),(2,3),(3,2),(4,1)})=#{(1,4),(2,3),(3,2),(4,1)}/36=4/36=1/9.

Bernoullifordelingen

At en stokastisk variabel Y er Bernoullifordelt med parameter p[0,1], karakteriseres meget simpelt af det tilfælde hvor Y antager værdien 1 med sandsynlighed p og værdien 0 med sandsynlighed 1p. Vi skriver ofte,

P(Y=1)=1P(Y=0)=p,

som karakterisering af denne fordeling. En fortolkning af Bernoullifordelingen kan være at der er sandsynlighed p for at en begivenhed indtræffer, og sandsynlighed 1p for at den ikke gør. Vi skriver her typisk YBern(p).

Alternativt kan Bernoullifordelingen karakteriseres ud fra punktsandsynlighederne ved,

P(Y=y)=(1y)(p1)+yp,for y{0,1}.

Binomialfordelingen

Vi siger at en stokastisk variabel Z er Binomialfordelt med parametre p[0,1] og n, hvis fordelingen af Z karakteriseres af punktsandsynlighederne,

P(Z=z)=(nz)pz(1p)nzfor z0.

En fortolkning af Binomialfordelingen er at vi udfører n uafhængige eksperimenter {Yi}i=1n af Bernoullifordelte stokastiske variable, alle med parameter p, og definerer her Z som summen af disse, det vil sige Z=Y1++Yn. Vi skriver her at ZBin(p,n).

Poissonfordelingen

Man kalder en stokastisk variabel W for Poissonfordelt med parameter α(0,) hvis fordelingen af W kan karateriseres ved punktsandsynlighederne,

P(W=w)=exp(α)αww!for w0.

Vi skriver i dette tilfælde at WPois(α). Det kan let vises at Poissonfordelingen blot er grænseopførslen, som n, for en Binomialfordelt stokastisk variabel ZnBin(pn,n) med pndefineret således at npn=α. Vi ser her at vi har,

limnP(Zn=z)=exp(α)αzz!P(Zn=z)exp(α)αzz!,

hvor tilnærmelsen gælder for store n og små pn=α/n.

Kontinuer stokastisk variabel

Lad Z:([0,1],([0,1]))(,()) være en reel stokastisk variabel med et ligefordelt sandsynlighedsmål P:([0,1])[0,1], det vil sige at P(A)=λ(A) for alle A([0,1]), hvor λ almindeligvis betegner Lebesgue-målet på . Lader vi nu Z(ω)=exp(ω) følger det fra en simpel udregning at Z(Ω)=Z([0,1])=[0,e], og #Z(Ω)>#, altså er Z en kontinuer stokastisk variabel. Vi ser her at vi har,

P(Z2)=P(Z1((,2]))=P([0,log(2)])=log(2)0.693.

Vi ser yderligere for punktsandsynligheden i 2, at der gælder,

P(Z=2)=P(Z1({2}))=P({log(2)})=0,

hvilket eksemplificerer idéen om at kontinuerte stokastiske variable har sandsynlighed 0 i deres punkter.

Normalfordelingen

Inden for sandsynlighedsregning og statistisk spiller Normalfordelingen en central rolle. Det anses af mange for den vigtigste fordeling. Vi siger at en stokastisk variabel X er normalfordelt med parameter μ og σ(0,), hvis den har tæthedsfunktionen

fX(x)=1σ2πexp(12(xμσ)2)for x.

I dette tilfælde skriver vi at X𝒩(μ,σ). I specialtilfældet hvor μ=0 og σ=1 siger vi at X følger en standard Normalfordeling. Vi anvender ofte notationen ϕX eller blot ϕ for tæthedsfunktionerne når X er standard Normalfordelt og tilsvarende ΦX eller Φ for fordelingsfunktionerne. I dette tilfælde får vi at,

ΦX(x)=xϕX(t)dt=x12πexp(12t2)dt.

Især spiller den standard Normalfordeling en hovedsaglig rolle i Den Centrale Grænseværdisætning.

Eksponentialfordelingen

Vi siger at V følger en Eksponentialfordeling med parameter β(0,), hvis den karakteriseres af tæthedsfunktionen,

fV(v)=βexp(βv)for v[0,).

Vi kan her finde et eksplicit udtryk for den tilsvarende fordelingsfunktion, som er givet ved

FV(v)=0vβexp(βt)dt=exp(βt)|t=0t=v=1exp(βv)for v[0,).

Hvis V er Eksponentialfordelt, skriver vi VExp(α).

Da fordelingsfunktionen kan udtrykkes eksplicit ved elementære funktioner, er det ikke unormalt at man støder på en alternativ definition af Eksponentialfordeling centreret omkring fordelingsfunktionen frem for tæthedsfunktionen.

Integration af stokastiske variable

Lader vi X:(Ω,Σ)(,()) betegne en stokastisk variabel og P:Σ[0,1] siger vi at X har endelig forventning, hvis X er integrabel mht. målet P. Vi kalder integralet for forventningen af X og skriver,

𝔼(X)=XdP=X+dPXdP,

hvor X+=max(X,0) og X=min(X,0) er den hhv. positive og negative del af X. Vi betegner ved (Ω,Σ,P) mængden af alle P-integrabel stokastiske variable på (Ω,Σ).

Forventning fra tæthed

Hvis en kontinuer stokastisk variabel X har tæthed fX, som er Riemann-integrabel, kan den forventede værdi findes simpelt ved integralet,

𝔼(X)=xfX(x)dx.

I tilfældet hvor X er diskret, findes en lignende metode der kan udtrykket som en sum,

𝔼(X)=xX(Ω)xP(X=x).

Disse udtryk gør det i praksis lettere at udregne forventningen for de mere velkendte stokastiske variable der kan karakteriseres fra en tæthed.

P-næsten sikkert

Vi siger at to stokastiske variable er ens næsten sikkert og skriver X=Y P-n.s. hvis P(XY)=P({ωΩ|X(ω)Y(ω)})=0. Denne definition er blot en indskrænkelse af det målteoretiske begreb μ-næsten overalt til specialtilfældet med sandsynlighedsmål. En ækvivalent definition af X=Y P-n.s. er at P(X=Y)=P({ωΩ|X(ω)=Y(ω)})=1.

Ved L(Ω,Σ,P) betegner vi mængden af ækvivalensklasser for integrable stokastiske variable under ækvivalensrelationen P-n.s.

Uafhængighed

Hvis X:(Ω,Σ)(E,) og Y:(Ω,Σ)(F,) betegner to stokastiske variable, siger vi at X og Y er uafhængige hvis der for alle valg af A og B gælder at P(XA,YB)=P(XA)P(YB).

Uafhængighed af stokastiske variable har en række af nyttige egenskaber, blandt andet ved beregningen af forventningen og variansen.

Konvergens

Udover det sædvanlige konvergensbereb, gælder en række andre typer af konvergens for stokastiske variable. Vi giver her et par eksempler på de mest anvendte.

Næsten sikker konvergens

Vi siger at en sekvens {Xn}n af stokastiske variable konvergerer mod X næsten sikkert hvis Xn(ω)Xn(ω) P-n.s., det vil sige hvis P({ωΩ|limnXn(ω)=X(ω)})=0. I dette tilfælde skriver vi Xna.s.X fra det engelske almost surely.

Konvergens i L(Ω,Σ,P)

En sekvens {Xn}n af stokastiske variable konvergerer mod X i L(Ω,Σ,P), eller blot i L hvis (Ω,Σ) og P er underforstået, hvis både |Xn| og |X| er i L(Ω,Σ,P) og der ydermere gælder at limn𝔼(|XnX|)=0. Vi anvender ofte notationen XnLX i dette tilfælde.

Konvergens i sandsynlighed

Vi siger at en sekvens {Xn}n af stokastiske variable, konvergerer mod X i sandsynlighed, hvis der for alle valg af ε>0 gælder at P(limn|XnX|>ε)=0. Vi skriver her at XnPX.

Blandt disse typer af konvergens siger man ofte at konvergens i sandsynlighed er svagest ment i den forstand at både næsten sikker konvergens samt konvergens i L(Ω,Σ,P) medfører hver især konvergens i sandsynlighed.

Notation

Mange dele af sandsynlighedsteori er lempelig med den anvendte notation. Det er som eksempel sjældent man nogensinde laver nogle dybe betragtninger om strukturen af det bagvedlæggende sandsynlighedsrum (Ω,Σ), og det er næsten aldrig at man eksplicit formulerer det. Af denne årsag er man sjældent interesseret i de konkrete funktionsværdier X(ω) for ωΩ, og blot denoterer disse ved X.

Yderligere i introducerende sandsynlighedsregning, betragter man sjældent stokastiske variable som egentlige afbildninger. De bliver ofte her betragtet som seperate matematiske strukturere som defineres ud fra deres egenskaber i forbindelse med deres tætheder og fordelingsfunktioner. Dette lægger også op til den almindeligt anvendte notation P(XB), P(X=n) og P(Xx) frem for de mere stringente P(X1(B)), P(X1({n})) og P(X1((,x])).

Hvis vi for en vilkårlig indeksering I har en sekvens {Xn}nI som tilhører den samme ækvivalensklasse i L(Ω,Σ,P), det vil sige at Xi=Xk P-n.s. for alle k,mI, er det sædvane at betegne dem blot ved en repræsentant X for ækvivalensklassen. Dette skyldes at stokastiske variable tilhørende samme ækvivalensklasse i L(Ω,Σ,P) ofte deler en række af egenskaber.Skabelon:Autoritetsdata