Reconnaissance de la langue d’un texte
Ce projet consiste à écrire un programme Python qui, étant donné un texte, détermine dans quelle langue il est écrit.
Par exemple le programme pourra accepter en entrée le texte (tiré de La Maison du chat-qui-pelote, Balzac, 1830) :
Le mal est fait, ma femme, dit Joseph Lebas, il faut chercher à donner de bons conseils à notre soeur. Puis, l’habile négociant analysa lourdement les ressources que les lois et les moeurs pouvaient offrir à Augustine pour sortir de cette crise ; il en numérota pour ainsi dire les considérations, les rangea par leur force dans des espèces de catégories, comme s’il se fût agi de marchandises de diverses qualités ; puis il les mit en balance, les pesa, et conclut en développant la nécessité où était sa belle-soeur de prendre un parti violent qui ne satisfit point l’amour qu’elle ressentait encore pour son mari. Aussi ce sentiment se réveilla-t-il dans toute sa force quand elle entendit Joseph Lebas parlant de voies judiciaires.
Étant donné ce texte le programme répondra 'français', ou 'french'. Étant donné un autre texte écrit, par exemple, en chinois ou en allemand, le programme répondra avec le nom de la langue.
Étant donné un texte de la taille de cet exemple, la réponse de votre programme réalisé selon la technique présentée ici devrait être typiquement fiable. Votre programme peut répondre avec une langue incorrecte si le texte en entrée est de taille très faible.