Decifrando Textos em Português
Após entendermos os conceitos de entropia, realizaremos um estudo sobre a língua portuguesa e aplicaremos nosso conhecimento para decifrar o seguinte texto:
I ETVYMPKGI JTSTEIXKHI SN MEIZKP T N RIKNE T RIKZ VNVYPNZN VIKZ SI IRTEKGI PIXKLI T N QYKLXN RIKNE TR IETI T VNVYPIGIN SN RYLSN.
Observação: levamos em consideração que as vogais com algum acento foram transformadas em vogais simples, e a letra Ç foi transformada em C.
Todas as estatísticas abaixo foram retiradas de um estudo feito com a ferramenta "Freqüência NumaBoa v1.1", que pode ser encontrada na seção de criptoanálise/software do website www.numaboa.com.br.
Propriedades de textos em português
Para realizar tal tarefa, vamos entender primeiro as propriedades estatísticas da língua portuguesa. Utilizaremos dados recolhidos de um estudo já realizado, a partir de vários livros de literatura brasileira.
Letra | Freqüência | Letra | Freqüência | |
A | 14.63% | N | 5.05% | |
B | 1.04% | O | 10.73% | |
C | 3.88% | P | 2.52% | |
D | 4.99% | Q | 1.20% | |
E | 12.57% | R | 6.53% | |
F | 1.02% | S | 7.81% | |
G | 1.30% | T | 4.34% | |
H | 1.28% | U | 4.63% | |
I | 6.18% | V | 1.67% | |
J | 0.40% | W | 0.01% | |
K | 0.02% | X | 0.21% | |
L | 2.78% | Y | 0.01% | |
M | 4.74% | Z | 0.47% |
Também foram inferidos a partir do estudo os seguintes dados:
Quando as letras são ordenadas pela frequência, formam grupos bem definidos:
6 vogais: A, E, I, O, U, (Y) - 48.75 %
5 consoantes de frequência alta: S, R, N, D, M - 29.12 %
10 consoantes de frequência média: T, C, L, P, V, G, H, Q, B,
F - 21.03 %
6 consoantes de frequência baixa: Z, J, X, K, W - 1.10%
Os 20 digramas mais freqüentes, e sua ocorrência em 100 letras. | Os 20 trigramas mais freqüentes, e sua ocorrência em 100 letras |
DE 1.76 RA 1.67 ES 1.65 OS 1.51 AS 1.49 DO 1.41 AR 1.33 CO 1.31 EN 1.23 QU 1.20 ER 1.18 DA 1.17 RE 1.14 CA 1.11 TA 1.10 SE 1.08 NT 1.08 MA 1.06 UE 1.05 TE 1.05 |
QUE 0.96 ENT 0.56 COM 0.47 NTE 0.44 EST 0.34 AVA 0.34 ARA 0.33 ADO 0.33 PAR 0.30 NDO 0.30 NAO 0.30 ERA 0.30 AND 0.30 UMA 0.28 STA 0.28 RES 0.27 MEN 0.27 CON 0.27 DOS 0.25 ANT 0.25 |
Probabilidade da palavra começar ou terminar com uma letra
Letras | D | A | E | C | P | S | O | M | N | Q | T | F | U | V | L | R | B | I | G | J | H | Z | K | X | W | Y |
Iniciais | 12 | 11 | 11 | 8 | 7 | 6 | 6 | 6 | 5 | 4 | 4 | 3 | 3 | 3 | 2 | 2 | 2 | 2 | 2 | 1 | 1 | - | - | - | - | - |
Letras | A | O | E | S | M | R | U | I | L | Z | D | T | H | N | C | Y | B | X | V | K | G | F | P | W | Q | J |
Finais | 70 | 65 | 60 | 48 | 21 | 14 | 10 | 5 | 4 | 2 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
Palavras curtas
|
|
Propriedades do texto cifrado
I ETVYMPKGI JTDTEIXKHI DN MEIZKP T N RIKNE T RIKZ VNVYPNZN VIKZ DI IRTEKGI PIXKLI T N QYKLXN RIKNE TR IETI T VNVYPIGIN DN RYLDN.
I EEVYMPKGI JEDTEIXKHI DN MEIZKP E N RIKNE E RIKZ VNVYPNZN VIKZ DI IREEKGI PIXKLI E N QYKLXN RIKNE ER IETI E VNVYPIGIN DN RYLDN.
I EEVYMPKGI JEDTEIXKHI DN MEIZKP E N MIKNE E MIKZ VNVYPNZN VIKZ DI IREEKGI PIXKLI E N QYKLXN MIKNE ER IETI E VNVYPIGIN DN MYLDN.
A REVUMPKCA JEDTRAXKHA DO MRAZKP E O MAKOR E MAKZ VOVUPOZO VAKZ DA AMERKCA PAXKLA E O QUYKLXO MAKOR ER AREA E VOVUPACAO DO MUNDO.
A REPUBLICA FEDERATIVA DO BRASIL E O MAIOR E MAIS POPULOSO PAIS DA AMERICA LATINA E O QUINTO MAIOR EM AREA E POPULACAO DO MUNDO.