Decifrando Textos em Português

Após entendermos os conceitos de entropia, realizaremos um estudo sobre a língua portuguesa e aplicaremos nosso conhecimento para decifrar o seguinte texto:

I ETVYMPKGI JTSTEIXKHI SN MEIZKP T N RIKNE T RIKZ VNVYPNZN VIKZ SI IRTEKGI PIXKLI T N QYKLXN RIKNE TR IETI T VNVYPIGIN SN RYLSN.

Observação: levamos em consideração que as vogais com algum acento foram transformadas em vogais simples, e a letra Ç foi transformada em C.

Todas as estatísticas abaixo foram retiradas de um estudo feito com a ferramenta "Freqüência NumaBoa v1.1", que pode ser encontrada na seção de criptoanálise/software do website www.numaboa.com.br.


Propriedades de textos em português

Para realizar tal tarefa, vamos entender primeiro as propriedades estatísticas da língua portuguesa. Utilizaremos dados recolhidos de um estudo já realizado, a partir de vários livros de literatura brasileira.

Letra Freqüência   Letra Freqüência
A 14.63%   N 5.05%
B 1.04%   O 10.73%
C 3.88%   P 2.52%
D 4.99%   Q 1.20%
E 12.57%   R 6.53%
F 1.02%   S 7.81%
G 1.30%   T 4.34%
H 1.28%   U 4.63%
I 6.18%   V 1.67%
J 0.40%   W 0.01%
K 0.02%   X 0.21%
L 2.78%   Y 0.01%
M 4.74%   Z 0.47%

 

 

 

 

 

 

 

 

 

 

 

Também foram inferidos a partir do estudo os seguintes dados:

Quando as letras são ordenadas pela frequência, formam grupos bem definidos:

6 vogais: A, E, I, O, U, (Y) - 48.75 %
5 consoantes de frequência alta: S, R, N, D, M - 29.12 %
10 consoantes de frequência média: T, C, L, P, V, G, H, Q, B, F - 21.03 %
6 consoantes de frequência baixa: Z, J, X, K, W - 1.10%

Os 20 digramas mais freqüentes, e sua ocorrência em 100 letras. Os 20 trigramas mais freqüentes, e sua ocorrência em 100 letras
DE 1.76
RA 1.67
ES 1.65
OS 1.51
AS 1.49
DO 1.41
AR 1.33
CO 1.31
EN 1.23
QU 1.20
ER 1.18
DA 1.17
RE 1.14
CA 1.11
TA 1.10
SE 1.08
NT 1.08
MA 1.06
UE 1.05
TE 1.05

QUE 0.96
ENT 0.56
COM 0.47
NTE 0.44
EST 0.34
AVA 0.34
ARA 0.33
ADO 0.33
PAR 0.30
NDO 0.30
NAO 0.30
ERA 0.30
AND 0.30
UMA 0.28
STA 0.28
RES 0.27
MEN 0.27
CON 0.27
DOS 0.25
ANT 0.25

 

 


 

 

 

 

 

 

 

 

 

 

 

Probabilidade da palavra começar ou terminar com uma letra

Letras D A E C P S O M N Q T F U V L R B I G J H Z K X W Y
Iniciais 12 11 11 8 7 6 6 6 5 4 4 3 3 3 2 2 2 2 2 1 1 - - - - -

 

 

Letras A O E S M R U I L Z D T H N C Y B X V K G F P W Q J
Finais 70 65 60 48 21 14 10 5 4 2 - - - - - - - - - - - - - - - -

 

 

Palavras curtas

Com 1 letra ocorrênncia em 100 letras
E 0.88
A 0.84
O 0.71



Com 2 letras ocorrênncia em 100 letras
DE 0.82
UM 0.31
SE 0.30
DA 0.27
OS 0.25
DO 0.25
AS 0.19
EM 0.17
NO 0.14
NA 0.12
Com 3 letras ocorrênncia em 100 letras
QUE 0.63
NAO 0.29
UMA 0.21
COM 0.21
ERA 0.14
POR 0.12
MAS 0.11
DOS 0.11
LHE 0.09
FOI 0.07
ELE 0.07
DAS 0.07
SUA 0.06
SEU 0.06
SEM 0.05

 

 

 

 

 

 

 

 

 

 

 

 

 


Propriedades do texto cifrado

I ETVYMPKGI JTDTEIXKHI DN MEIZKP T N RIKNE T RIKZ VNVYPNZN VIKZ DI IRTEKGI PIXKLI T N QYKLXN RIKNE TR IETI T VNVYPIGIN DN RYLDN.

I EEVYMPKGI JEDTEIXKHI DN MEIZKP E N RIKNE E RIKZ VNVYPNZN VIKZ DI IREEKGI PIXKLI E N QYKLXN RIKNE ER IETI E VNVYPIGIN DN RYLDN.

I EEVYMPKGI JEDTEIXKHI DN MEIZKP E N MIKNE E MIKZ VNVYPNZN VIKZ DI IREEKGI PIXKLI E N QYKLXN MIKNE ER IETI E VNVYPIGIN DN MYLDN.

A REVUMPKCA JEDTRAXKHA DO MRAZKP E O MAKOR E MAKZ VOVUPOZO VAKZ DA AMERKCA PAXKLA E O QUYKLXO MAKOR ER AREA E VOVUPACAO DO MUNDO.

A REPUBLICA FEDERATIVA DO BRASIL E O MAIOR E MAIS POPULOSO PAIS DA AMERICA LATINA E O QUINTO MAIOR EM AREA E POPULACAO DO MUNDO.