#
# Stochastik-Praktikum, WS 2019/20, JGU Mainz
# 25.11.2019

## ##############################################################################
## heute:

## Illustrationen des Gesetzes der großen Zahlen
##   (und ein "Gegenbeispiel")
##   
## Monte-Carlo-Integration: "naiv" und 
##   mit Kontrollvariable zur Varianzreduktion:
## (ggfs. auch: Importance sampling als Methode zur
##  Varianzreduktion)


# #################################################################
#
# Illustrationen des Gesetzes der großen Zahlen 
#

# Zur Einstimmung:
# Konvergenz der empirischen Häufigkeiten beim Münzwurf beobachten
# Wir simulieren n unabhängige binomialverteilte Zufallsvariablen/Münzwürfe 
# mit Erfolgsw'keit p.
# Dann plotten wir für m=1,2,...,n die relativen Häufigkeiten von Erfolgen
# in den ersten m Versuchen.

n <- 100
p <- 0.5
x <- rbinom(n,size=1,prob=p)
cumsum(x)/(1:n)
plot(1:n,cumsum(x)/(1:n), xlab="Anz.Summanden m",ylab="Empir.Mittelwert (X_1+...+X_m)/m")
abline(h=p, col='red')

# Wir zeigen 4 Replikate dieses Experiments in einem Bild:
GesdgrZ_binomial<-function(n,p){
  x11()
  par(mfrow=c(2,2))
  for(i in 1:4) {
    #Wir simulieren n Münzwürfe/Binomialverteilte ZV mit Erfolgsw'keit p
    Folge<-rbinom(n,size=1,prob=p)
    #Wir berechnen die empirische Häufigkeiten
    Frequenz<-cumsum(Folge)/seq(1,n)
    #nun erzeugen wir das passende Bild
    ylab<-"Empir.Mittelwert (X_1+...+X_m)/m"
    xlab<-"Anz.Summanden m"
    plot(Frequenz, ylab=ylab,xlab=xlab,type = "l",ylim=c(0,1))
    abline(h=p,col="red")
  }
  par(mfrow=c(1,1))
  title(main=c("Illustration des Gesetzes der großen Zahlen:",
               paste0("p=",p,",",n," Versuche")))
}
# Einmal mit 1000 Versuchen und p=0.5
GesdgrZ_binomial(1000,0.5)

# Noch einmal mit 1000 Versuchen und p=0.75
GesdgrZ_binomial(1000,0.75)

# Wir sollten bei 1000 Versuchen die Konvergenz gegen p gut sehen koennen.
# Bei 100 Versuchen koennen wir noch deutliche(re) Abweichungen von p beobachten.
GesdgrZ_binomial(100,0.5)

# Jetzt dasselbe mit der Normalverteilung:
# Wir simulieren n unabhaengige normalverteilte Zufallsvariablen mit 
# Erwartungswert mu und Varianz sigma^2
# Dann plotten wir für m=1,2,...,n die relativen Haeufigkeiten von Erfolgen
# in den ersten m Versuchen.
# Wir zeigen (wieder) 4 Replikate dieses Experiments in einem Bild:
GesdgrZ_normal<-function(n,mu,sigma,zentrieren){
  x11()
  par(mfrow=c(2,2))
  ylab<-"Empir.Mittelwert (X_1+...+X_m)/m"
  xlab<-"Anz.Summanden m"
  for(i in seq(1,4)){
    Folge<-rnorm(n,mean=mu,sd=sigma)
    Frequenz<-cumsum(Folge)/seq(1,n)
    #Zentriere Bild, falls gewünscht
    if(zentrieren){
      plot(Frequenz, ylab=ylab,xlab=xlab,type = "l",ylim=c(mu-1,mu+1))
    }
    else{plot(Frequenz, ylab=ylab,xlab=xlab,type = "l")}
    abline(h=mu,col="red")
  }
  par(mfrow=c(1,1))
  title(main=c("Illustration des Gesetzes der großen Zahlen:", 
               paste0("mu=",mu,",sigma=",sigma,",",n," Versuche")))
}

# Einmal mit 1000 Versuchen und mu=0, sigma=1
# Ohne Zentrieren
GesdgrZ_normal(1000,mu=0,sigma = 1,FALSE)

# Einmal mit 1000 Versuchen und mu=5, sigma=1
# Ohne Zentrieren
GesdgrZ_normal(1000,mu=5,sigma = 3,FALSE)

# Vergleich von Konvergenzgeschwindkeit
# 100 Versuchen und mu=0, sigma=1
# Zum besseren Vergleich mit Zentrieren
GesdgrZ_normal(100,mu=0,sigma = 1,TRUE)

# Einmal mit 100 Versuchen und mu=0, sigma=sqrt(10)
GesdgrZ_normal(100,mu=0,sigma = 3.162,TRUE)

# Mit ein bisschen Glück sollten wir sehen,
#d ass die Schwankungen für sigma=sqrt(10) deutlich stärker sind.


# ###################################################################
# Ohne Erwartungswert scheitert das Gesetz der großen Zahlen:

# Ein Beispiel einer Verteilung(sklasse) mit unendlichem Erwartungswert
# Sei 0 < a < 1, 
# 1) f_a(x) := a x^(-1-a), x>=1 ist eine W'dichte,
# 2)  die zugehoerige Verteilungsfunktion ist
#    F_a(x) = 0 fuer x<=1, = 1-x^(-a) fuer x>1, 
# 3) die inverse Verteilungsfunktion ist
#    F_a^{-1}(u) = (1-u)^(-1/a).
# 4) Es ist 
#    integrate(x f_a(x), 1, infinity) =
#    integrate(a x^(-a), 1, infinity) = infinity,
#    d.h. es gibt keinen Erwartungswert

# Wir simuliere n ZVn mit Dichte f_a, indem wir F_a und die Inversionmethode verwenden.
# Danach versehen wir diese mit einem zufaelligen Vorzeichen.
# So erhalten wir eine symmetrische ZV ohne Erwartungswert
rfa <- function(n, a=0.5) {
  (1-runif(n, min=0, max=1))^(-1/a)*sample(c(-1,1),size=n,replace=TRUE)
}

replikate <- 5000
a <- 0.5  ## auch andere Werte probieren, z.B. a <- 0.25 oder a <- 0.9

x <- rfa(replikate, a)
mean(x)
hist(x)  ## Wir sehen: es gibt einige wenige sehr extreme Werte
min(x); max(x)
par(mfrow=c(1,2))
plot(x,xlab="Simulationen",ylab="Werte der Simulationen")
plot(log(abs(x),base=10),xlab="Simulationen",ylab="Logarithmus der Werte der Simulationen zur Basis 10")
par(mfrow=c(1,1))

hist(x, xlim=c(-a/(a-1)-0.1,5), breaks=c(-Inf,seq(-a/(a-1)-0.1,5,by=0.1),Inf))
abline(v=mean(x), lwd=2, col='red')
mean(x[x>0])

# Schauen wir uns an, wie sich empirische Mittelwerte
# (als Funktion der Anzahl summierter Kopien) hier verhalten:
x <- rfa(replikate, a)
y<-cumsum(x)/(1:replikate)
par(mfrow=c(1,2))
plot(y, type="l", xlab=paste("Anz. Summanden n"),
     ylab="Empir. Mittelwert (X_1+...+X_n)/n",
     main=paste("Kopien von X mit Dichte f_",a,sep=""))
abline(h=0, col='red')
plot(x,xlab="Simulationen",ylab="Werte der Simulationen")
abline(h=0, col='red')
par(mfrow=c(1,1))

# Vergleich mit der Normalverteilung
x<-rnorm(replikate)
y<-cumsum(x)/(1:replikate)
par(mfrow=c(1,2))
plot(y, type="l", xlab=paste("Anz. Summanden n"),
     ylab="Empir. Mittelwert (X_1+...+X_n)/n",
     title="Standardnormalverteilung")
abline(h=0, col='red')
plot(x,xlab="Simulationen",ylab="Werte der Simulationen")
abline(h=0, col='red')
par(mfrow=c(1,1))

# Was passiert fuer 1<a<2? 
# Die Verteiliung mit Dichte f_a besitzt einen Erwartungswert, aber keine Varianz.
a=1.5
x <- rfa(replikate, a)
y<-cumsum(x)/(1:replikate)
par(mfrow=c(1,2))
plot(y, type="l", xlab=paste("Anz. Summanden n"),
     ylab="Empir. Mittelwert (X_1+...+X_n)/n",
     main=paste("Kopien von X mit Dichte f_",a,sep=""))
abline(h=0, col='red')
plot(x,xlab="Simulationen",ylab="Werte der Simulationen")
abline(h=0, col='red')
par(mfrow=c(1,1))


########################################################
#
# Monte-Carlo-Integration

# Beispiel: Integriere sqrt(1-x^2) von 0 bis 1
# (wir wissen: dies ergibt pi/4, ein Viertel der Fläche des Einheitskreises)
# (ausserdem: (d/dx 0.5*x*sqrt(1-x^2)+0.5*arcsin(x)=sqrt(1-x^2) )
f <- function(x) ifelse(abs(x)<1, sqrt(1-x^2), 0)

curve(f, xlim=c(0,1)) ## Plot von f
abline(h=0)
abline(v=0)
N <- 1000000  # Anz. verwendete ZVn, ggfs. erhöhen

# Wir erzeugen N mal f(U), wobei U uniform auf [0,1] verteilt ist.
fwerte <- sapply(runif(N), f)

I.hut <- 4*mean(fwerte)  # Schätzwert für das Integral mal 4
#Vergleich mit pi
I.hut
pi

# Wie genau ist der Schätzer?
sd(fwerte)
sd(fwerte)/sqrt(N) # der Standardfehler, d.h. die geschaetzte Varianz
# von I.hut

# Monte-Carlo-Integration hat Konvergenzordnung 1/2,
# schauen wir es uns an:
Nwerte <- 10^(2:6) #round(seq(from=1000, to=N, length.out=10))
Nwerte

I.hut.ausw <- 4*sapply(Nwerte, function(k) mean(sapply(runif(k), f)))
I.hut.ausw

plot(Nwerte, I.hut.ausw, xlab="Anz. Replikate", ylab="Schätzwert")
abline(h=pi, lty=2)
# besser: Skala fuer Anzahl Replikate logarithmisch
plot(log10(Nwerte), I.hut.ausw, xlab="log10(Anz. Replikate)", ylab="Schätzwert")
abline(h=pi, lty=2)

# Demonstration, dass die Monte-Carlo-Integration eine Konvergenzordnung von 1/2 besitzt
# (zumindest ungefaehr zu sehen).
plot(log10(Nwerte), abs((sqrt(Nwerte)*(I.hut.ausw-pi))), xlab="Anz. ZVn", ylab="(Schätzwert-wahrer Wert)*sqrt(Auswertungen)",
     ylim=c(-0.1,2))
abline(h=0, col="red")
plot(log10(Nwerte), log10(abs(I.hut.ausw-pi)), xlab="Anz. ZVn", ylab="(Schätzwert-wahrer Wert)*sqrt(Auswertungen)")


#
# Beispiel: Volumen der Einheitskugel im R^3
#
N <- 10^5

f <- function(x,y,z) ifelse(x*x+y*y+z*z<=1,1,0)
# schreibe f=8*f*(0.5)^3 und interpretiere als Integral bzgl. unif([-1,1]^3)
gwerte <- replicate(N, 8*f(runif(1,min=-1,max=1),runif(1,min=-1,max=1),runif(1,min=-1,max=1)))

I.hut <- mean(gwerte); I.hut  # Schätzwert für das Integral
4*pi/3 # der exakte Wert

sd(gwerte)
sd(gwerte)/sqrt(N) # geschätzte Varianz von I.hut

# Zum Vergleich: Numerische Integration auf einem festen Rechtecksgitter:
N1 <- round(N^(1/3))
N1

gitter <- seq(from=-1, to=1, length.out=N1)
masche <- gitter[2]-gitter[1]
gittervol <- masche^3

summe <- 0.0
for (x in gitter) {
  for (y in gitter) {
    for (z in gitter) {
      summe <- summe+f(x,y,z)*gittervol
    }
  }
}

summe; 4*pi/3


#####################################################
## Ein "Trick" zur Varianzreduktion bei Monte-Carlo-Integration
## Kontrollvariable

# nochmal: Volumen der Einheitskugel im R^3 per
# Monte-Carlo-Integration
# (als geeignetes Integral bezgl. der uniformen Vert. auf [-1,1]^3 auffassen)

f <- function(v) ifelse(v[1]*v[1]+v[2]*v[2]+v[3]*v[3]<=1,1,0)

N <- 1000 # Anz. Simulationen, ggf. variieren, z.B. 10000 oder 1e5

MC.werte1 <- replicate(N, 8*f(runif(3,-1,1)))
MC.schaetzer1 <- mean(MC.werte1)
MC.stdfehler1 <- sd(MC.werte1)/sqrt(N)
MC.schaetzer1; MC.stdfehler1

4*pi/3  # der wahre Wert

## Exkurs: 
## prüfen wir anhand eines Meta-Experiments und QQ-Plots, ob eine
## Normalitätsannahme plausibel scheint:
# Interpretation des QQ-Plots:
# Die empirische Quantilwerte unserer Stichprobe wird mit den Quantilen der
# Standardnormalverteilung verglichen.
# 1. Liegen die Punkte annäherend auf einer Geraden so liegt eine Normalverteilung vor.
# 2. Je größer die Steigung, desto höher die Varianz
# 3. Je niedriger der Abszissenachsenabschnitt desto größer der Erwartungswert
Nmeta <- 50
MC.werte1replikate <- replicate(Nmeta, mean(replicate(N, 8*f(runif(3,-1,1)))))
qqnorm(MC.werte1replikate)
qqline(MC.werte1replikate)
# Wir sollten sehen, dass die Punkte auf einer geraden liegen unterhalb der Hauptdiagonalen
# (Vorgriff auf den zentralen Grenzwertsatz).

# #################
# Kontrollvariable:
h <- function(v) 1-(v[1]*v[1]+v[2]*v[2]+v[3]*v[3])
# h hat Erwartungswert 0 unter der uniformen Vert. auf [-1,1]^3
mean(replicate(1000, h(runif(3,-1,1)))) # ... was wir empirisch "verifizieren"


konst <- 0.8 # variieren, z.B. 1.0, 3.0, 6.0, 10

fmod <- function(v) 8*f(v)-konst*8*h(v)
# Schätzen wir das Volumen der Einheitskugel im R^3 mit Hilfe von fmod:
MC.werte2 <- replicate(N, fmod(runif(3,-1,1)))
MC.schaetzer2 <- mean(MC.werte2); MC.stdfehler2 <- sd(MC.werte2)/sqrt(N)
MC.schaetzer2; MC.stdfehler2

# Vergleichen wir:
cat(paste("Schätzer1:", MC.schaetzer1, " Standardfehler", MC.stdfehler1,"\n",
          "mit Wahl konst=", konst, " : Schätzer2:", MC.schaetzer2,
          " Standardfehler", MC.stdfehler2,"\n",
          "Std.fehler1/Std.fehler2=", MC.stdfehler1/MC.stdfehler2,"\n"))

# Schaetzen wir die optimale konst: 
hwerte8 <- numeric(N); f8werte <- numeric(N)

for (i in 1:N) {
  v<-runif(3,-1,1)
  hwerte8[i]<-8*h(v); f8werte[i]<-8*f(v)
}
var(hwerte8)
cov(hwerte8, f8werte)

# 
cov(hwerte8, f8werte)/var(hwerte8)

################################################
##
## Ein "Trick" zur Varianzreduktion bei Monte-Carlo-Integration
## Importance sampling
#
#  Bsp.: Integal sqrt(1-x^2), x=0..1

N <- 100000  # ggf. variieren

# zunächst einfache Monte-Carlo-Integration
direkt <- sapply(runif(N), function(x) sqrt(1-x^2))
mean(direkt)
pi/4
# absolute Abweichung vom theoretischen Wert:
mean(direkt)-pi/4

sd(direkt)
sd(direkt)/sqrt(N) # Standardfehler des "direkten Schätzers"
stdfehler.direkt <- sd(direkt)/sqrt(N)

# Vergleichen wir die "Zielfunktion" f
curve(sqrt(1-x^2),xlim=c(0,1),ylim=c(0,1.5))
# ... und eine Wahrscheinlichkeitsdichte, gemäß der wir leicht
#     simulieren können (die Dichte von Beta(1.0,1.5))
curve(1.5*sqrt(1-x), add=TRUE, col="red")
betadichte <- function(x) dbeta(x,shape1=1,shape2=1.5)
curve(betadichte, add=TRUE, col="blue")
legend("topright", lty=1, col="red", legend="Beta(1.0,1.5)-Dichte")

curve(sqrt(1-x^2)/(1.5*sqrt(1-x)),xlim=c(0,1), lty=2, add=TRUE)

# Benutze Beta(1,1.5) als Vorschlagsverteilung
h <- function(x) sqrt(1-x^2)/(1.5*sqrt(1-x))
gewichtet <- sapply(rbeta(N,shape1=1,shape2=1.5), h)
mean(gewichtet)
pi/4
# absolute Abweichung vom theoretischen Wert:
mean(gewichtet)-pi/4

# (mit ein bisschen Glück) sollten wir sehen, dass der Standardfehler kleiner wird.
# Berechnung des neuen Standardfehlers
sd(gewichtet)
sd(gewichtet)/sqrt(N)
stdfehler.gewichtet <- sd(gewichtet)/sqrt(N)

# Vergleich zwischen den Standardfehlern, also den mittleren Schwankungen
stdfehler.gewichtet
stdfehler.direkt
sd(direkt)/sd(gewichtet)

# Vergleich der (relativen) "Fehler":
abs(mean(gewichtet)-pi/4)/(pi/4); abs(mean(direkt)-pi/4)/(pi/4)

## #########################################################
## "Bonusmaterial":
## Konvergenz der empirischen Verteilungen: Empirische Verteilungsfunktion

# Wir simulieren
# (Standard-)Normalverteilte Daten
Anz <- 10000

X.A <- rnorm(Anz)
X.B <- rnorm(Anz)

e1A <- ecdf(X.A[1:50])
plot(e1A, pch=20, cex=0.2, main="Empir. Vertfkt. der ersten 50 Beob.")
curve(pnorm, col="red", add=T)

# Empirische Vert.fkt. im Selbstbau:
par(mfrow=c(1,2))

qs50 <- c(0:50/50,1)
werteA50   <- c(-1000,sort(X.A[1:50]),1000)
plot(werteA50, qs50, xlim=c(-4,4), type="s", xlab="x",
     ylab="empir. Anteil <= x", sub="Datenreihe A")
)
curve(pnorm, col="red", add=T)

werteB50   <- c(-1000,sort(X.B[1:50]),1000)
plot(werteB50, qs50, xlim=c(-4,4), type="s", xlab="x",
     ylab="empir. Anteil <= x", sub="Datenreihe B")
curve(pnorm, col="red", add=T)

par(mfrow=c(1,1))
title("Empir. Vertfkt. der ersten 50 Beob. und Normalverteilungsfkt.")

# dasselbe für die ersten 250 Werte:

par(mfrow=c(1,2))

qs250 <- c(0:250/250,1)
werteA250   <- c(-1000,sort(X.A[1:250]),1000)
plot(werteA250, qs250, xlim=c(-4,4), type="s", xlab="x",
     ylab="empir. Anteil <= x", sub="Datenreihe A")
)
curve(pnorm, col="red", add=T)

werteB250   <- c(-1000,sort(X.B[1:250]),1000)
plot(werteB250, qs250, xlim=c(-4,4), type="s", xlab="x",
     ylab="empir. Anteil <= x", sub="Datenreihe B")
curve(pnorm, col="red", add=T)

par(mfrow=c(1,1))
title("Empir. Vertfkt. der ersten 250 Beob. und Normalverteilungsfkt.")

# und für alle Werte:

x11()
par(mfrow=c(1,2))

qs10000 <- c(0:10000/10000,1)
werteA10000   <- c(-1000,sort(X.A[1:10000]),1000)
plot(werteA10000, qs10000, xlim=c(-4,4), type="s", xlab="x",
     ylab="empir. Anteil <= x", sub="Datenreihe A")
)
curve(pnorm, col="red", add=T)

werteB10000   <- c(-1000,sort(X.B[1:10000]),1000)
plot(werteB10000, qs10000, xlim=c(-4,4), type="s", xlab="x",
     ylab="empir. Anteil <= x", sub="Datenreihe B")
curve(pnorm, col="red", add=T)

par(mfrow=c(1,1))
title("Empir. Vertfkt. der 10000 Beob. und Normaldichte")

#
# Differenz von empirischer und theoretischer Verteilungsfkt.:

plot(werteA50[2:50],pnorm(werteA50[2:50])-qs50[2:50],
     xlim=c(-4,4), ylim=c(-1,1), type="l",
     xlab="x", ylab="Differenz", 
     main=c("Differenz von empirischer und theoretischer Verteilungsfkt.",
            "(50 Werte)"))

x11()
plot(werteA250[2:250],pnorm(werteA250[2:250])-qs250[2:250],
     xlim=c(-4,4), ylim=c(-1,1), type="l",
     xlab="x", ylab="Differenz", 
     main=c("Differenz von empirischer und theoretischer Verteilungsfkt.",
            "(250 Werte)"))

x11()
plot(werteA10000[2:10000],pnorm(werteA10000[2:10000])-qs10000[2:10000],
     xlim=c(-4,4), ylim=c(-1,1), type="l",
     xlab="x", ylab="Differenz", 
     main=c("Differenz von empirischer und theoretischer Verteilungsfkt.",
            "(10000 Werte)"))

# und mit dem Faktor sqrt(Anz. Beobachtungen) "aufgeblasen:

x11()
par(mfrow=c(3,2))

plot(werteA50[2:50],sqrt(50)*(pnorm(werteA50[2:50])-qs50[2:50]),
     xlim=c(-4,4), ylim=c(-4,4), type="l",
     xlab="x", ylab="Differenz", sub="Datenreihe A",
     main=c("sqrt(50)*(Differenz von empirischer und theoretischer Verteilungsfkt.)", "(50 Werte)"))

plot(werteB50[2:50],sqrt(50)*(pnorm(werteB50[2:50])-qs50[2:50]),
     xlim=c(-4,4), ylim=c(-4,4), type="l",
     xlab="x", ylab="Differenz", sub="Datenreihe B",
     main=c("sqrt(50)*(Differenz von empirischer und theoretischer Verteilungsfkt.)", "(50 Werte)"))

plot(werteA250[2:250],sqrt(250)*(pnorm(werteA250[2:250])-qs250[2:250]),
     xlim=c(-4,4), ylim=c(-4,4), type="l",
     xlab="x", ylab="Differenz", sub="Datenreihe A",
     main=c("sqrt(250)*(Differenz von empirischer und theoretischer Verteilungsfkt.)", "(250 Werte)"))

plot(werteB250[2:250],sqrt(250)*(pnorm(werteB250[2:250])-qs250[2:250]),
     xlim=c(-4,4), ylim=c(-4,4), type="l",
     xlab="x", ylab="Differenz", sub="Datenreihe B",
     main="sqrt(250)*(Differenz von empirischer und theoretischer Verteilungsfkt.) (250 Werte)")

plot(werteA10000[2:10000],sqrt(10000)*(pnorm(werteA10000[2:10000])-qs10000[2:10000]),
     xlim=c(-4,4), ylim=c(-4,4), type="l",
     xlab="x", ylab="Differenz", sub="Datenreihe A", 
     main=c("sqrt(10000)*(Differenz von empirischer und theoretischer Verteilungsfkt.)", "(10000 Werte)"))

plot(werteB10000[2:10000],sqrt(10000)*(pnorm(werteB10000[2:10000])-qs10000[2:10000]),
     xlim=c(-4,4), ylim=c(-4,4), type="l",
     xlab="x", ylab="Differenz", sub="Datenreihe B", 
     main=c("sqrt(10000)*(Differenz von empirischer und theoretischer Verteilungsfkt.)", "(10000 Werte)"))

par(mfrow=c(1,1))