Die mittlere Zeichenkoinzidenz

Kryptologie

Die mittlere Zeichenkoinzidenz zweier stochastischer Sprachen

a7Hzq .#5r< kÜ\as TâÆK$ ûj(Ö2 ñw%h: Úk{4R f~`z8 ¤˜Æ+Ô „&¢Dø

Für stochastische Sprachen L, M Í S^* mit Buchstabenhäufigkeiten q_s bzw. p_s für s Î S wird die mittlere Zeichenkoinzidenz von Texten der Länge r betrachtet:

Satz. Die mittlere Zeichenkoinzidenz der stochastischen Sprachen L und M ist asymptotisch gleich

Der Beweis folgt unten.

Deutung

Die Zeichenkoinzidenz genügend langer gleichlanger Texte a Î L und b Î M ist ungefähr

k(a,b) » S_sÎS p_sq_s.

Das stimmt überein mit der intuitiven Vorstellung, wie wahrscheinlich das Auftreten von Koinzidenzen (Zwillingspaaren) ist.

Spezialfälle

1.) Sei L = S^* mit den Buchstabenhäufigkeiten q_s = 1/n, und M habe die Buchstabenhäufigkeiten p_s. Dann ist

k_MS^* = S_sÎS p_s/n = 1/n.

Das deutet man so:

k(»sinnvoller Text«, »zufälliger Text«) » 1/n.

2.) Sei L = M. Dann erhält man die Formel

k_MM = S_sÎS p_s².

Das deutet man so:

k(»sinnvoller Text«, »sinnvoller Text«) » S_sÎS p_s².

3.) Sei L = M_(q) = {a_(q) | a Î M} Í S^*; L besteht also aus den um q Stellen zyklisch verschobenen Texten. Dann ist mit M auch L stochastisch, und zwar mit den gleichen Buchstabenhäufigkeiten. Also ist

k_LM = S_sÎS p_s².

Für die Texte a Î M bilden die Paare (a,a_(q)) allerdings keine »repräsentative« Stichprobe aus L×M. Nimmt man aber an, dass a_(q) »unabhängig« von a ist - was bei natürlichen Sprachen schon bei q ³ 2 empirisch möglich ist - so erhält man die Näherungsformel

k_q(a) » S_sÎS p_s².

Ein Hilfssatz

Hilfssatz. Sei M eine stochastische Sprache. Dann gilt für die mittlere Abweichung für alle Buchstaben s Î S:

[Formel]

Beweis. Sei e > 0 gegeben und r so groß, dass

a) r ³ 4 × #J/e,

b) |m_sj^(r) - p_s| < e/2 für alle j Î [0 ¼ r]-J.

Für j Î J ist sicher |m_sj^(r) - p_s| £ |m_sj^(r)| + |p_s| £ 2. Also folgt:

[Formel] ¨

Bemerkung.

ist die mittlere Häufigkeit von s in Texten der Länge r. Dafür gilt also:

Korollar. lim_r®¥ m_s^(r) = p_s.

Der Beweis des Satzes

[Formel]

Der zweite und dritte Summand konvergieren nach dem Hilfssatz gegen 0, der vierte konvergiert ebenfalls gegen 0, da |e_sjh_sj| £ 1. Also konvergiert die Summe gegen S_sÎS p_sq_s.¨

Autor: Klaus Pommerening, 5. März 2000; letzte Änderung: 6. März 2000.
E-Mail an Pommerening@imsd.uni-mainz.de.