Langue et histogramme

Invité

Salut, La première chose que j'ai réalisée, parce que je travaillais par ailleurs et par hasard sur le sujet, c'est de relever les histogrammes d'apparition des lettres dans un texte. J'ai donc appliqué cela au texte du rocher du Caro, et l'ai comparé à 3 langues: le français, le basque et le breton. Il semblerait que l'écrat soit le plus faible par rapport au breton.
Le document PDF se trouve ici:
[url= https://mon-partage.fr/f/1e8wiu79/]histogramme[/url]

J'ai pour cela bricolé un petit programme en python 2.7 (voir ci dessous)

Cette méthode est critiquable surtout parce que le nombre de lettres disponibles est statistiquement faible...

Je peux bien sûr tester d'autres langues, il me faut pour cela avoir des textes dans ces langues suffisamment longs afin que les histogramme soient représentatifs.

Brest etant sans doute un lieu où de nombreux étrangers passaient, il faudrait tester les langues nordiques, anglosaxone (quoiqu'en guerre à cette époque?) Espagnole, portugaise, voire les routes vers l'Inde également, mais là, c'est peut être exagéré...

source=open(u'breton.txt',"r")
b=source.read()
b=b.lower()
nbcar=0.0
hist=[0]*26
for i in b:
car=ord(i)-97
if ((car<26) and (car>=0)):
hist[car]+=1
nbcar+=1
for i in range(26):
s=str(hist[i]/nbcar)
s=s.replace(".",",")
print s

Invité

Le lien ne s'ouvre pas. Error....

Invité

https://mon-partage.fr/f/1e8wiu79/