![]() |
KryptologieDie mittlere Zeichenkoinzidenz zweier stochastischer Sprachen |
|
Für stochastische Sprachen L, M ⊆ Σ* mit Buchstabenhäufigkeiten qs bzw. ps für s ∈ Σ wird die mittlere Zeichenkoinzidenz von Texten der Länge r betrachtet:
Satz.
Die mittlere Zeichenkoinzidenz der stochastischen Sprachen L und M ist
asymptotisch gleich![]() |
Der Beweis folgt unten.
Die Zeichenkoinzidenz genügend langer gleichlanger Texte a ∈ L und b ∈ M ist ungefähr
κ(a,b) ≈ ∑s∈Σ psqs.
1.) Sei L = Σ* mit den Buchstabenhäufigkeiten qs = 1/n, und M habe die Buchstabenhäufigkeiten ps. Dann ist
κMΣ* = ∑s∈Σ ps/n = 1/n.Das deutet man so:
κ(»sinnvoller Text«, »zufälliger Text«) ≈ 1/n.
2.) Sei L = M. Dann erhält man die Formel
κMM = ∑s∈Σ ps2.Das deutet man so:
κ(»sinnvoller Text«, »sinnvoller Text«) ≈ ∑s∈Σ ps2.
3.) Sei L = M(q) = {a(q) | a ∈ M} ⊆ Σ*; L besteht also aus den um q Stellen zyklisch verschobenen Texten. Dann ist mit M auch L stochastisch, und zwar mit den gleichen Buchstabenhäufigkeiten. Also ist
κLM = ∑s∈Σ ps2.Für die Texte a ∈ M bilden die Paare (a,a(q)) allerdings keine »repräsentative« Stichprobe aus L×M. Nimmt man aber an, dass a(q) »unabhängig« von a ist - was bei natürlichen Sprachen schon bei q ≥ 2 empirisch möglich ist - so erhält man die Näherungsformel
κq(a) ≈ ∑s∈Σ ps2.
Hilfssatz.
Sei M eine stochastische Sprache. Dann gilt für die mittlere Abweichung
für alle Buchstaben s ∈ Σ:![]() |
Beweis. Sei ε > 0 gegeben und r so groß, dass
a) r ≥ 4 × #J/ε,
b) |μsj(r) - ps| < ε/2 für alle j ∈ [0 … r]-J.
Für j ∈ J ist sicher |μsj(r) - ps| ≤ |μsj(r)| + |ps| ≤ 2. Also folgt:
♦
Bemerkung.
Korollar. limr→∞ μs(r) = ps. |
Der zweite und dritte Summand konvergieren nach dem Hilfssatz gegen 0, der vierte konvergiert ebenfalls gegen 0, da |εsjηsj| ≤ 1. Also konvergiert die Summe gegen ∑s∈Σ psqs.♦