Projet de la traduction automatique en utilisant le transformer fairseq
dans le cadre du cours du réseau de neurone et du web interfance.
Contact: [email protected] [email protected]
- Établir un corpus parallèle bilingue (chinois-français / anglais français)
- Prétraitement des données (nettoyage, tokenisation)
- Entraînement du modèle fairseq(avec 150,000 paires de phrases)
- Fine-tuné avec les données de chatgpt(Augmentation des données)
- Évaluation tant quatitative que qualitative
- Déploiement - Web interface (avec
FastAPI
)
URL de téléchargement : https://conferences.unite.un.org/uncorpus/Home/DownloadOverview
Possiblité de retrouver sur huggingface: https://huggingface.co/datasets/un_pc/viewer/fr-zh
- créer un environnement virtuel
- installer les dépendances pour notre modèle et le déploiement
pip install -U -r requirements.txt
- Démarrer l'API activé localement
uvicorn main:app --reload
- Se diriger vers notre site web
Grand Merci à notre tuteur de nous mettre à disposition le GPU du serveur de lattice pour entraîner le modèle de traductique pour ce projet.