# 
# Stochastik-Praktikum, WS 2020/2021, JGU Mainz
# 7.12.2020

## ##############################################################################
## heute:
## 
## Simulation von ZVn mit vorgegebener 
##    Verteilung mittels Verwerfungsmethode 
##    ("Rejection sampling")
##
## ##############################################################################

#####################################################
##
## Simulation mittels Verwerfungsmethode (rejection sampling)

# Zugrundeliegende Theorie
# (wir betrachten der Einfachheit halber hier den diskreten Fall):
# E endliche Menge, f(x), g(x) für x aus E Wahrscheinlichkeitsgewichte,
# es gelte f(x)/g(x) <= C für eine Konstante C und 
# X sei gemäß den Gewichten g verteilt (d.h. P(X=x)=g(x)) und wir 
# nehmen an, wir besitzen einen Simulationsalgorithmus für X.
# Sei U unabhängig von X, uniform auf [0,1] verteilt.
# Generiere einen Zufallswert Y folgendermaßen:
# Simuliere ein Paar (X, U) (unabhängig),
# falls U <= f(X)/(C*g(X)), akzeptiere diesen Wert und setze Y:=X,
# ansonsten simuliere ein neues, unabhängiges Paar (X,U), etc.

# Warum funktioniert dieses Verfahren?
# Es ist P(X=x, U <= f(X)/(C*g(X))) = g(x) P(U <= f(x)/(C*g(x)))
#        = (g(x) f(x))/(C g(x)) = f(x)/C, also
# P(U <= f(X)/(C*g(X))) = \sum_x P(X=x, U <= f(X)/(C*g(X))) = 1/C
# und folglich 
# P(Y=x) = P(X=x, U <= f(X)/(C*g(X)) | U <= f(X)/(C*g(X))) = f(x).
# Wir sehen zugleich: Die Wahrscheinlichkeit, dass ein Vorschlag
# erfolgreich ist, ist P(U <= f(X)/(C*g(X))=1/C, d.h. wir
# müssen geometrisch mit Erfolgsparameter 1/C oft vorschlagen,
# und die Methode ist umso effizienter, je näher C an 1 liegt, d.h.
# je ähnlicher f und g sich sind.
#
# Bem.:
# 1. Im kontinuierlichen Fall gilt ein analoges Argument, in dem
#    die Wahrscheinlichkeitsgewichte durch Wahrscheinlichkeitsdichten
#    ersetzt werden.
# 2. Wir sehen: Es kommt in obigem Argument nicht darauf an, dass
#    f(x) Wahrscheinlichkeitsgewichte sind, sondern nur, dass
#    f(x) >= 0 und \sum_x f(x) endlich:
#    Sei \sum_x f(x) = K != 1, so finden wir
#    P(U <= f(X)/(C*g(X))) = K/C und somit hat Y die
#    (Wahrscheinlichkeits-)Gewichte f(x)/K.


# Beispiel: Ziehen ohne Zurücklegen via Ziehen mit Zurücklegen simulieren,
# d.h. aus einem Zufallsgenerator für die Binomialverteilung einen
# für die hypergeometrische Verteilung bauen. 

# M weiße, N schwarze Kugeln in Urne, ziehe n ohne Zurücklegen,
# beobachte, wieviele weiße Kugeln in der Stichprobe
M <- 30; N <- 20; n <- 15 

p <- M/(M+N)

# Die Gewichte wären:
#dhyper(0:n, M, N, n)
#dbinom(0:n, n, p)
C <- max(dhyper(0:n, M, N, n)/dbinom(0:n, n, p))
C

sim.hypgeom.VM <- function() {
  repeat {
    x <- rbinom(1, n, p) 
    u <- runif(1)
    
    if (u <= dhyper(x, M, N, n)/(C*dbinom(x, n, p)))
      break
  }
  x
}

# Überzeugen wir uns, dass das funktioniert:

wdh <- 10000
beob <- replicate(wdh, sim.hypgeom.VM())

# zunächst per Auge:
hi <- hist(beob, breaks=0:(n+1)-0.5, prob=T,
           main="Empir. Häufigkeiten der Ergebn. d. Verwerfungsroutine")
points(0:n, dhyper(0:n, M, N, n), col="red")

## Bem./Vorgriff: Ein statistisches Standard-Verfahren, um zu
## prüfen, ob die simulierten Werte tatsächlich aus der
## behaupteten hypergeometrischen Verteilung stammen, ist 
## der chi^2-Test:
chisq.test(hi$counts, p=dhyper(0:n, M, N, n))

## und falls wir der chi^2-Approximation hier nicht trauen:
chisq.test(hi$counts, p=dhyper(0:n, M, N, n), simulate.p.value=T, B=500)
# Das gibt jedenfalls keinen Grund, an der Verwerfungsmethode zu zweifeln.


#
# Ein kontinuierliches Beispiel:
# Beta-Verteilung (mit Parametern a, b >= 1) aus einem
# unif([0,1])-verteilten Vorschlag generieren

# Die Beta(a,b)-Verteilung (a, b > 0) hat Dichte
# B(a,b) x^(a-1)*(1-x)^(b-1) auf [0, 1], wo
# B(a,b) = gamma(a+b)/(gamma(a)*gamma(b))  ("Beta-Funktion", s.a. ?beta)

a <- 1.5; b <- 2
curve(x^(a-1)*(1-x)^(b-1), xlim=c(0,1))
# nimmt ihr Maximum bei x=(a-1)/(a+b-2),
# wie man leicht durch Ableiten prüft 
abline(v=(a-1)/(a+b-2), col="blue")  

dbeta.unnorm <- function(x) x^(a-1)*(1-x)^(b-1)
C <- dbeta.unnorm((a-1)/(a+b-2))/1

sim.beta.VM0 <- function() {
  repeat {
    x <- runif(1); u <- runif(1)
    
    if (u <= dbeta.unnorm(x)/C)  # bemerke: Es genügt, die "Zieldichte"
      # bis auf Normierung zu kennen
      break
  }
  x
}

# Überzeugen wir uns wiederum, dass das funktioniert:

wdh <- 10000
beob <- replicate(wdh, sim.beta.VM0())

# zunächst per Auge:
klassen <- seq(from=0, to=1, by=0.05)
hi <- hist(beob, breaks=klassen, prob=T,
           main="Empir. Häufigkeiten der Ergebn. d. Verwerfungsroutine")

curve(dbeta(x,a,b), add=T, col="red")
klassengewichte <- (pbeta(klassen[-1],a,b)-pbeta(klassen[-length(klassen)],a,b))
points(hi$mids, klassengewichte/(klassen[-1]-klassen[-length(klassen)]),
       col="blue")

# und per chi^2-Test:
chisq.test(hi$counts, p=klassengewichte)

# und falls wir der chi^2-Approximation hier nicht trauten:
chisq.test(hi$counts, p=klassengewichte, simulate.p.value=T, B=500)


#
# Beta-Verteilung (mit Parametern 0<a<1, b > 1) aus einem
# Beta(a,1)-Vorschlag gewinnen

# (Beta(a,1) hat Dichte a x^(a-1) auf [0,1], also Verteilungsfunktion
# F(x)=x^a und inverse Vert.fkt. F^{-1}(y)=y^(1/a) (für y in [0,1]))

a <- 0.4; b <- 2
curve(x^(a-1)*(1-x)^(b-1), xlim=c(0.001,1), ylim=c(0,20))

dbeta.unnorm <- function(x) x^(a-1)*(1-x)^(b-1)
quotient <- function(x) (1-x)^(b-1)  # dies ist (bis auf Normierug)
# die Beta(a,b)-Dichte geteilt durch
# die Beta(a,1)-Dichte
C <- 1

sim.beta.VM1 <- function() {
  repeat {
    x <- (runif(1))^(1/a) # dies ist Beta(a,1)-verteilt:
    # Methode der Inversion der Verteilungsfunktion
    u <- runif(1)
    
    if (u <= quotient(x)/C)  # bemerke: Es genügt, die "Zieldichte"
      # bis auf Normierung zu kennen
      break
  }
  x
}

# Überzeugen wir uns wiederum, dass das funktioniert:

wdh <- 10000
beob <- replicate(wdh, sim.beta.VM1())

# zunächst per Auge:
klassen <- seq(from=0, to=1, by=0.05)
hi <- hist(beob, breaks=klassen, prob=T,
           main="Empir. Häufigkeiten der Ergebn. d. Verwerfungsroutine")

curve(dbeta(x,a,b), add=T, col="red")
klassengewichte <- (pbeta(klassen[-1],a,b)-pbeta(klassen[-length(klassen)],a,b))
points(hi$mids, klassengewichte/(klassen[-1]-klassen[-length(klassen)]),
       col="blue")

# und per chi^2-Test:
chisq.test(hi$counts, p=klassengewichte)

# und falls wir der chi^2-Approximation hier nicht trauten:
chisq.test(hi$counts, p=klassengewichte, simulate.p.value=T, B=500)


## #########################################################
#
# Verwerfungsmethode und Zerlegung des Wertebereichs:
#
# Sei f gewünschte "Ziel-Dichte" (bzw. -Gewichte). 
# Annahme: Wir können den Wertebereich in disjunkte Teile B1, B2 zerlegen
# und können X1 mit Werten in B1 mit Dichte g1 bzw.
# X2 mit Werten in B2 mit Dichte g2 simulieren, und es gilt
# f(x)/g1(x) <= C1 für x in B1, f(x)/g2(x) <= C2 für x in B2.
# Verfahren:
# Wähle I=1 mit W'keit C1/(C1+C2), I=2 mit W'keit C2/(C1+C2)
# Wenn I=1: Simuliere (X1,U), akzeptiere Y:=X1, wenn U <= f(X)/(C1*g1(X)),
# sonst beginne das Verfahren komplett neu,
# analog wenn I=2: Simuliere (X2,U), akzeptiere
# Y:=X2, wenn U <= f(X)/(C2*g2(X)), etc.
#
# Man kann analog zu obigem Argument im "unzerteilten Fall" zeigen,
# dass Y die Verteilung(sgewichte|dichte) f hat.
# Ein entsprechend angepasstes Verfahren erlaubt, den Raum in mehr
# als 2 Stücke zu zerlegen.


# Beispiel: Gamma-Verteilung mit Formparameter ga < 1.
# (Dichte ist x^(ga-1)*exp(-x)/gamma(ga).)

ga <- 0.45

curve(x^(ga-1)*exp(-x), xlim=c(0,3), ylim=c(0,5), n=1000)
abline(v=1, lty=2)
curve(x^(ga-1), xlim=c(0.001,1), add=T, col="red")
curve(exp(-x), xlim=c(1,5), add=T, col="blue")

# Wir benutzen links der 1 als Vorschlagsverteilung Beta(ga, 1),
# rechts der 1 eine um 1 verschobene Exp(1):

ga.dichte.unnormiert <- function(x) x^(ga-1)*exp(-x)

vorschl.dichte1 <- function(x) ga*x^(ga-1)
C1 <- 1/ga  # ga.dichte.unnormiert/vorschl.dichte1 ist <= 1/ga auf (0,1]

vorschl.dichte2 <- function(x) exp(x-1)
C2 <- exp(-1)  # ga.dichte.unnormiert/vorschl.dichte2 ist <= 1/e auf (1,\infty)

sim.gamma.VM <- function() {
  repeat {
    if (runif(1) <=C1/(C1+C2)) {
      x <- (runif(1))^(1/ga) # dies ist Beta(ga,1)-verteilt:        
      u <- runif(1)
      if (u <= ga.dichte.unnormiert(x)/(C1*vorschl.dichte1(x)))  
        break
    }
    else {
      x <- -log(runif(1))+1 # dies ist eine um 1 nach rechts verschobene Exp(1)
      u <- runif(1)
      if (u <= ga.dichte.unnormiert(x)/(C2*vorschl.dichte2(x)))  
        break
    }
  }
  x  
}

# Überzeugen wir uns wiederum, dass das funktioniert:

wdh <- 10000
beob <- replicate(wdh, sim.gamma.VM())

# zunächst per Auge:
klassen <- seq(from=0, to=max(beob)+0.1, by=0.05)
hi <- hist(beob, breaks=klassen, prob=T,
           main="Empir. Häufigkeiten der Ergebn. d. Verwerfungsroutine")

curve(dgamma(x,shape=ga), add=T, col="red")

klassengewichte <- (pgamma(klassen[-1],shape=ga)-pgamma(klassen[-length(klassen)],shape=ga))
points(hi$mids, klassengewichte/(klassen[-1]-klassen[-length(klassen)]),
       col="blue")