[JoGu]

Kryptologie

Die mittlere Zeichenkoinzidenz zweier stochastischer Sprachen

a7Hzq .#5r<
kÜ\as TâÆK$
ûj(Ö2 ñw%h:
Úk{4R f~`z8
¤˜Æ+Ô „&¢Dø

Für stochastische Sprachen L, M Í S* mit Buchstabenhäufigkeiten qs bzw. ps für s Î S wird die mittlere Zeichenkoinzidenz von Texten der Länge r betrachtet:

[Formel]

Satz. Die mittlere Zeichenkoinzidenz der stochastischen Sprachen L und M ist asymptotisch gleich

[Formel]

Der Beweis folgt unten.


Deutung

Die Zeichenkoinzidenz genügend langer gleichlanger Texte a Î L und b Î M ist ungefähr

k(a,b) » SsÎS psqs.
Das stimmt überein mit der intuitiven Vorstellung, wie wahrscheinlich das Auftreten von Koinzidenzen (Zwillingspaaren) ist.

Spezialfälle

1.) Sei L = S* mit den Buchstabenhäufigkeiten qs = 1/n, und M habe die Buchstabenhäufigkeiten ps. Dann ist

kMS* = SsÎS ps/n = 1/n.
Das deutet man so:
k(»sinnvoller Text«, »zufälliger Text«) » 1/n.

2.) Sei L = M. Dann erhält man die Formel

kMM = SsÎS ps2.
Das deutet man so:
k(»sinnvoller Text«, »sinnvoller Text«) » SsÎS ps2.

3.) Sei L = M(q) = {a(q) | a Î M} Í S*; L besteht also aus den um q Stellen zyklisch verschobenen Texten. Dann ist mit M auch L stochastisch, und zwar mit den gleichen Buchstabenhäufigkeiten. Also ist

kLM = SsÎS ps2.
Für die Texte a Î M bilden die Paare (a,a(q)) allerdings keine »repräsentative« Stichprobe aus L×M. Nimmt man aber an, dass a(q) »unabhängig« von a ist - was bei natürlichen Sprachen schon bei q ³ 2 empirisch möglich ist - so erhält man die Näherungsformel
kq(a) » SsÎS ps2.


Ein Hilfssatz

Hilfssatz. Sei M eine stochastische Sprache. Dann gilt für die mittlere Abweichung für alle Buchstaben s Î S:

[Formel]

Beweis. Sei e > 0 gegeben und r so groß, dass

a) r ³ 4 × #J/e,

b) |msj(r) - ps| < e/2 für alle j Î [0 ¼ r]-J.

Für j Î J ist sicher |msj(r) - ps| £ |msj(r)| + |ps| £ 2. Also folgt:

[Formel] ¨

Bemerkung.

[Formel]
ist die mittlere Häufigkeit von s in Texten der Länge r. Dafür gilt also:

Korollar. limr®¥ ms(r) = ps.


Der Beweis des Satzes

[Formel]

[Formel]

[Formel]

[Formel]

Der zweite und dritte Summand konvergieren nach dem Hilfssatz gegen 0, der vierte konvergiert ebenfalls gegen 0, da |esjhsj| £ 1. Also konvergiert die Summe gegen SsÎS psqs.¨


Autor: Klaus Pommerening, 5. März 2000; letzte Änderung: 6. März 2000.
E-Mail an
Pommerening@imsd.uni-mainz.de.