#
# Sitzung des Stochastik-Praktikums, WS 2013/2014, JGU Mainz
# 27.1.2014

## Themen:
## Robustheit, "Gestutztes Mittel"-Beispiel
## Pseudozufallszahlen


## #########################################################
## Ein Beispiel zum Umgang mit "Ausreissern":
## Hertzsprungs Problem,
## vgl. S. 82 in Willem R. van Zwet,
##    Van De Hulst on Robust Statistics: A Historical Note,
##    Statist. Neerlandica 39 (2) : 81-95, (1985)

# Daten (simuliert)
n <- 24
x <- rnorm(n)
x
# sortierte Daten:
xs <- sort(x)
xs
# gestutzte Daten:
k <- 3
xg <- xs[(k+1):(n-k)]
xg

## Mittelwerte:
mean(x)
mean(xg)

##
## Hertzsprungs Frage:
## Wie aendert diese Operation die Varianz?
## Das empirische Mittel von n u.a. Beobachtungen
## hat Varianz sigma^2(n,0) = 1/n,
## wie ist die Varianz sigma^2(n,k) des
## (beidseitig) k-gestutzten Mittels von n Beobachtungen?

## Wir antworten (wie Hertzsprung) per Simulation:
he.ziehung <- function(n,k) {
  x <- rnorm(n)
  sort(x)[(k+1):(n-k)]
}

##
n <- 24
k <- 5 ## ggfs. variieren

N <- 1000 ## Anz. Replikate des Ziehungsexperiments
da <- replicate(N, mean(he.ziehung(n,k)))
hist(da)
## Schaetzwert fuer sigma^2(n,k)/sigma^2(n,0)
mean(da^2)/(1/n)

## schauen wir das Ganze auch fuer verschiedene k an: 
dage <- matrix(0,nrow=N,ncol=n)

for (i in 1:N) {
  dage[i, ] <- sort(rnorm(n))
}

k.werte <- 0:11
sigmhut <- numeric(length(k.werte))
for (j in 1:length(k.werte)) {
  da <- sapply(1:N, function(i) mean(dage[i,(k.werte[j]+1):(n-k.werte[j])]))
  sigmhut[j] <- mean(da^2)
}

## der Tabelle aus van Zwet, S.83 entspricht
sigmhut/sigmhut[1]

## bzw.
n*sigmhut


## #########################################################
## Wie "robust" ist die t-Statistik
## (die ja wörtlich auf einer Normalverteilungsannahme an die
##  Daten beruht)?

n <- 8  ## variieren, z.B. n <- 5 ; n <- 12 ; n <- 20 ; n <- 50

a <- 2.45 # Formparameter
curve(dgamma(x, shape=a, scale=1), xlim=c(0,4*a))
abline(v=a, lty=2) ## EW ist a

x <- rgamma(n, shape=a, scale=1)
t <- sqrt(length(x))*mean(x)/sd(x)
t

t.emp <- replicate(1000, { x <- rgamma(n, shape=a, scale=1)-a ; sqrt(length(x))*mean(x)/sd(x)} )

hist(t.emp, prob=TRUE)
curve(dt(x,df=n-1),add=TRUE,col='red')


## #########################################################
## #########################################################

# Simulation von Pseudo-Zufallszahlen via lineare Kongruenzen-Generatoren

# Für sehr viele Simulationsprobleme benötigt man
# sog. "Pseudozufallszahlen":
# Beobachtungen oder Werte x[1], x[2], x[3], ... die keine
# erkennbare Regelmäßigkeit haben und für die Zwecke der
# Berechnung als unabhängig und zufällig generiert angenommen werden
# (dürfen), d.h. wir tun beispielsweise so, als ob die x[1], x[2], ...
# durch wiederholtes, unabhängiges Drehen eines Glücksrad gewonnen
# worden wären -- obwohl sie aus Praktikabilitätsgründen durch einen
# (deterministischen) Algorithmus (einen sog. (Pseudo-)Zufallsgenerator)
# im Computer erzeugt worden sind.
#
# Bemerkung:
# Eine "Standardreferenz" zu Pseudozufallszahlen ist Chapter 3 in 
# Donald E. Knuth, The art of computer programming,
# Vol. 2 / Seminumerical algorithms, 3rd Ed., Addison-Wesley, 1998.
# Das dort behandelte Material geht weit über den hier vorgestellten
# Stoff hinaus. 


# Ein einfaches Beispiel sind die
# linearen Kongruenzengeneratoren:

# Beginne mit einem (ganzzahligen) Startwert ("Zufallssame", "random seed"). 
# Wenn der aktuelle Wert x ist, so ist der nächste Wert
# (a*x+c) mod M

# z.B.
M <- 2048; a <- 65; c <- 1

# "Selbstbau"-linearer Kongruenzengenerator: 
linKonGen <- function() {
  neu <- (a*x + c) %% M
  # folgendes setzt den Wert der (globalen) Variable x auf den von neu
  assign("x", neu, .GlobalEnv)
  # gebe "uniform" auf (0,1] verteilten Wert aus: 
  (neu+1)/M
}

# Startwert: 
x <- 5

N <- 5000
werte <- numeric(N)
for (i in 1:N)
  werte[i]<-linKonGen()

# Übrigens: Dasselbe leistet (wesentlich schneller)
# werte <- replicate(N, linKonGen())

# Anschauen:
plot(werte)
lines(werte,add=TRUE)
hist(werte, prob=TRUE)

werte <- replicate(500, linKonGen())

# Zeichne Wert gegen Nachfolger-Wert:
plot(werte, werte[c(2:500,1)])

# zum Vergleich:
x11()
werteR <- runif(500)
plot(werteR, werteR[c(2:500,1)])


# Perioden können ein Problem sein (speziell bei kleinem M):
M <- 16
#a <- 5; c<-1 
a <- 4; c <-0

x <- 5
replicate(30, linKonGen())  # (in diesem Beispiel: Wert 4 = Wert 20, etc.)


# Zwei Beispiele:
M <- 256
a <- 17; c <- 1 # gibt relativ gleichmäßige Verteilung
N <- M
werte <- numeric(N)
for (i in 1:N)
  werte[i]<-linKonGen()
plot(M*werte, M*werte[c(2:N,1)])

x11()
M <- 256
a <- 129; c <- 1 # gibt wenig gleichmäßige Verteilung
N <- M
werte <- numeric(N)
for (i in 1:N)
  werte[i]<-linKonGen()
plot(M*werte, M*werte[c(2:N,1)])


# Rs Zufallsgenerator-Hilfe
?set.seed


############################################
#
# Eine Illustration zu Knuths Warnung
# "... random numbers should not be generated with a method chosen
#  at random. Some theory should be used."
# (loc. cit., S. 6, siehe auch Exercise 11, S.8)

m <- 100000
f <- sample(1:m, m, replace=T)

# Definiere "Zufallsfolge" durch y[n+1]=f[y[n]]
# mit zufälligem Startwert y[0].
# Diese wird offenbar schließlich zyklisch, wie lang ist der
# resultierende Zyklus?

gesehen <- logical(m) # initialisiert mit m-mal FALSE
y <- sample(1:m,1)
y # der Startwert

anfangslaenge <- 0
while(gesehen[y]==FALSE) {
  anfangslaenge <- anfangslaenge+1
  z<-y
  gesehen[z]<-TRUE
  y<-f[y]
}
anfangslaenge # Wie lang war das Stück vor dem Zyklus?

# Wir sind auf einen Zyklus gestoßen, die Werte von z und y sind
# nun so, dass f[z]=y, d.h. wir haben einen Zyklus
# y_0=y, y_1=f[y_0], y_2=f[y_1], ..., y_{n-1}=f[y_{n-2}]=z, y_n=f[z]=y_0.

# Bestimme die Länge des Zyklus:
zyklaenge <- 1
yy <- f[y]
while (yy != y) {
  zyklaenge <- zyklaenge+1
  yy <- f[yy]
  # cat(yy, " ") # ggf. ent-kommentieren, um Zykel anzuschauen
}
zyklaenge

# Ggf. einige Male wiederholen.
# Beobachtung: auch bei großem m läuft die Folge typischerweise
# auf recht kurze Zyklen.


############################################
#
# (empirische) Tests mit Zufallsgeneratoren

# hier ggf. eigenen Zufallsgenerator einsetzen
zufgen <- function() runif(1)
# zufgen <- linKonGen
# Beispielwerte:
# M <- 2048; a <- 65; c <- 1  # (das Mini-Beispiel vom Anfang, versagt kläglich)
# M <- 10^10; a<-3141592621; c <- 1
# M <- 2^31; a <- 65539; c <- 0  # Dies ist "RANDU", s.a. Knuth, S. 107
# M <- 2^35; a <- 2^18+1; c <- 1 # "Generator F" aus Knuth, S. 47  
# ggf. auch Startwert variieren:
# x <- 5; x <- 314159265

# 1. Sind die Werte gleichmäßig verteilt?
# Wir benutzen den chi^2-Test:

# Zerlege (0,1] in kl Klassen (0,1/kl], (1/kl,2/kl],...,((kl-1)/k1,1]
# wenn wir n Werte generieren lassen, erwarten wir in jeder Klasse n/kl
# Werte (mit "Zufallsfluktuationen")

kl <- 5     # variieren
n <- 100000

beob <- rep(0, times=kl)

for (i in 1:n) {
  w <- ceiling(kl*zufgen()) # verwandelt Wert aus (0,1] in Wert aus {1,...,kl}
  beob[w] <- beob[w]+1
}

beob
beob/n
beob/n-rep(1/kl, times=kl)

# Einschätzung der Größe der Abweichung vom "theoretischen Mittelwert"
# via chi^2-Statistik
chiquadratwert <- sum((beob-n/kl)^2/(n/kl))
chiquadratwert

# Wie wahrscheinlich wäre eine solche Abweichung für
# "echte" Zufallszahlen (p-Wert des Tests)?
pchisq(chiquadratwert, df=kl-1, lower.tail=F)

# Dasselbe mit einem R-Befehl:
chisq.test(beob)


#
# Analog für d-Tupel von Werten:
# (sollten bei Vergröberung uniform verteilt sein auf kl^d Klassen)

d <- 3   # Andere Werte einsetzen, z.B. 2, 3, 5  
kl <- 6  # Andere Werte einsetzen, z.B. 2, 3, 4, 5, 6

beob <- rep(0, times=kl^d)

n <- 10000

for (i in 1:n) {
  # gewinne eine ganze Zahl aus {0,1,...,kl^d-1}
  # durch Darstellung mit d Ziffern im kl-System
  stelle <- 1; w <- 0
  for (j in 1:d) {
    w <- w+(ceiling(kl*zufgen())-1)*stelle
    stelle <- stelle*kl
  }
  w <- w+1 # (Rs array-Indizes beginnen bei 1, nicht bei 0)
  beob[w]<-beob[w]+1
}

beob
beob-n/(kl^d)
beob/n-1/(kl^d)

# Wie gut passt die empirische Verteilung von d-Tupeln?
chisq.test(beob)


#
# "Lückentest": Wie lange muss man warten
# (genauer: wieviele Fehlversuche), bis der
# nächste Wert in [s,t] kommt?

s <- 0.2; t <- 0.5

sim.wartezeit <- function() {
  i <- 0
  repeat {
    u <- zufgen()
    if (u >=s && u <=t)
      break
    i<-i+1
  }
  i
}

L <- 50000
wz <- replicate(L, sim.wartezeit())

# vergleiche solche Wartezeiten mit der geometrischen Verteilung
# mit Erfolgsparameter t-s: 

# grafisch:
if (max(wz)>=10) {
  klassen <- c(seq(from=-0.5, to=10.5,by=1), max(wz)+0.5)
  geom.gewichte <- c(dgeom(0:10, prob=t-s), pgeom(10, prob=t-s, lower.tail=F))
} else {
  klassen <- seq(from=-0.5, to=10.5,by=1)
  geom.gewichte <- dgeom(0:10, prob=t-s)
}

hi <- hist(wz, prob=T, breaks=klassen)
points(hi$mids, geom.gewichte/(hi$breaks[-1]-hi$breaks[-length(hi$breaks)]),
       col="red")

# und mit dem chi^2-Test:
chisq.test(hi$counts, p=geom.gewichte)


#
# Maximalwert von t Beobachtungen:
# Für U_1,..., U_t u.a. unif([0,1]) ist
# P(max(U1,...,U_t)<=x)=x^t = int_0^t t*x^{t-1} dt,
# d.h. max(U1,...,U_t) sollte Beta(3,1)-verteilt sein:

t <- 3 # ggf. variieren
max(replicate(t, zufgen())) 

L <- 10000
mwerte <- replicate(L, max(replicate(t, zufgen())))

# Vergleiche empirische und theoretische Verteilungsfkt.
plot(ecdf(mwerte))
curve(pbeta(x, shape1=3, shape2=1), add=T, col="red")

#
# Befunde: 
# Rs eingebauter Zufallsgenerator "besteht" diese Tests,
# die Beispiel-LKG haben z.T. Schwierigkeiten.

## #########################################################
## #########################################################
##
## Übrigens: den Zustand von Rs eingebauten Zufallsgenerator
## erfährt man mit
.Random.seed
  
## in Aktion: 
runif(1); .Random.seed[1:6]; runif(1); .Random.seed[1:6]
  
# Informationen zum Zufallsgenerator:
RNGkind()

# Startwert ("seed") setzen:
set.seed(5)