Criptografia

Col·laboració de Sandra Reina per al capítol Xifrar missatges

L’art de la criptografia és increïblement extens. Un món que apel·la la curiositat, sobretot perquè tracta de poder descobrir coses, desxifrar missatges que ens estan prohibits, que contenen secrets que no hauríem de saber.

D’aquest desxiframent no autoritzat també se n’han fet estudis, i s’han creat tècniques per tal d’aconseguir desxifrar textos sense claus, sense informació externa i sense gaire més ajut que la curiositat pròpia.

A més de les tècniques d’encriptació simètrica i asimètrica, quan es tracta de desencriptar, trobem d’altres maneres de resoldre el problema. La tècnica més rudimentària de desxiframent no autoritzat és l’anàlisi de freqüències. Aquest sistema, tot i que pot semblar molt simple, és de gran utilitat i funciona en la gran majoria dels casos. Es basa en un fet estadístic i, per tant, constatat: les lletres de l’alfabet no estan distribuïdes uniformement, sinó que en els textos escrits sempre hi ha una distribució de la freqüència, és a dir, hi ha unes lletres que tenen més probabilitats d’aparèixer que d’altres.

Per exemple, en un text llarg, i escrit en català, les lletres que apareixen més sovint són la E i la A, mentre que les menys probables que apareguin són la W o la Z.

De fet, l’INE, l’Institut d’Estudis Catalans va realitzar un extens estudi a partir de 100.000 lletres extretes de textos, tant periodístics com literaris, en llengua catalana, i va elaborar una llista de distribució de l’alfabet. Aquesta llista demostrava que, en ordre decreixent, les lletres segueixen aquestes probabilitats:

E (13,89%), A (12,55%), S (8,43%), R (7,74%), I (6,99%), L (6,76%), N (6,40%), T (6,11%), O (5,71%), U (4,18%), D (3,94%), C (3,60%), M (3,16%), P (2,72%), V (1,40%), Q (1,35%), B (1,32%), G (1,28%), Ç (1,06%), F (1%), H (0,72%), X (0,52%), J (0,30%), Y (0,18%), Z (0,006%), K (0,004%), W (0,001%).

Com es pot comprovar, entre les lletres més freqüents es troben les cinc vocals, ja que són claus per a la formació de paraules, i les consonants més repetides són la S (sobretot pel fet que és la lletra utilitzada per a la formació de plurarls) i la R.

Com es tracta d’una qüestió estadística, s’ha de tenir en compte que la llargada del text influeix: com més llarg sigui aquest, més probablement la distribució serà calcada a la descrita anteriorment. Pel contrari, si un text és molt curt, és possible que no s’adapti a aquesta norma, ja que pot ser que es tracti de paraules que, casualment, tinguin lletres de poca probabilitat, com per exemple: una zebra al zoo.

Quan es vol desxifrar un text sense estar autoritzat, també és molt important que es tingui en compte l’idioma en el què està escrit el text original. Aquest fet és clau, ja que la distribució de probabilitats serà diferent segons la llengua amb la que estem tractant. Per exemple, en castellà, les 6 lletres més freqüents són la E (16,78%), la A (11,96%), la O (8,69%), la L (8,37%), la S (7,88%) i la N (7,01%). Podem observar que, mentre que en les vocals es manté més o menys igual, la consonant L passa per davant de la S, cosa que en català no passa.

Amb aquest mètode, si interceptem un missatge que sabem que ha estat escrit en català i xifrat mitjançant el sistema de Cèsar podem descobrir ràpidament que, si la lletra que apareix més sovint és la K, és molt probable que aquesta sigui la E. Per tant, podem transformar totes les K en E, i això determina tota la resta de transformacions, ja que sabrem que només hem de desplaçar totes les lletres de l’alfabet de la següent manera: Si la E (que és la lletra 4, és la K (que té el valor 10), totes les lletres s’han de desplaçar sis llocs endavant. D’aquesta manera, ens estalviem de fer les altres 25 provatures necessàries per desxifrar el text.

L’anàlisi de freqüències és una tècnica elemental que, ben utilitzada, permet atacar amb èxit no només el sistema de Juli Cèsar, sinó, de fet, qualsevol dels sistemes clàssics de substitució.

Però si tractem de desxifrar un text i no tenim més informació, a més del sistema de freqüències, podem recórrer a l’estudi de les normes ortogràfiques i la gramàtica de la llengua. Aquestes, atorguen a les paraules i a la construcció d’oracions una sèrie de barreres que ens permeten identificar patrons i esquemes, ja que apareixeran encara que el text estigui xifrat.

Per exemple, en català, la lletra Q sempre ha d’anar seguida, obligatòriament, de la lletra U. Per tant, quan dos signes en un text xifrat apareguin sempre junts i en aquesta posició, podem deduir que, molt probablement, es tracti de la Q i la U.

A més, hi ha altres grups de lletres que van repetides, com la doble S (rossa), la doble R (carro), la doble L (lluna), etc. De manera que si dos signes repetits apareixen al text xifrat amb freqüència, molt probablement es tracti d’un d’aquests grups.

Un es quantes proves i una mica de paciència seran suficients per resoldre els enigmes i desxifrar textos.

A més, hi ha eines a internet que ens permeten fer un anàlisi de freqüències amb facilitat i sense més esforç que un clic. És el cas d’aquesta pàgina web amb la que no només es pot descobrir la freqüència de les lletres, sinó que també ens ajuda a fer el procés de substitució de manera automàtica.

Col·laboració de Sandra Reina per al capítol Xifrar missatges