Voici une grosse, très grosse nouveauté dans le monde de la TA, la traduction automatique ! Une (r)évolution capable d'impacter en profondeur la profession de traducteur, de même que la traduction automatique a commencé à révolutionner la traduction depuis une décennie. Il s'agit du tout nouveau hub de TA signé Microsoft :
LES LANGUES À LA RENCONTRE DU MONDE !
Microsoft Translator Hub jette un pont entre langues, cultures et technologie
Mais écoutons ce qu'ils disent du service dans l'introduction de leur guide utilisateur :
Jusqu’à présent, la traduction automatique (TA) n’a été l’apanage que de quelques grands fournisseurs de services linguistiques. Par conséquent, le nombre de langues couvertes en TA est limité à moins de 100, alors que l’on compte aujourd’hui plus de 7 000 langues parlées dans le monde. Cela limite l’accès des locuteurs natifs aux bases de connaissances mondiales et favorise de plus en plus l’adoption de langues non indigènes, tout simplement car c’est ce que la technologie actuelle rend plus facilement disponible.
Microsoft Translator Hub permettra donc aux entreprises et aux communautés de construire, former et déployer des systèmes personnalisés de traduction automatique en améliorant la qualité des traductions spécialisées, aussi bien pour les langues solidement établies que pour celles qu’aucun des principaux fournisseurs de services linguistiques n’assure encore.
Motorisé par Windows Azure™, Microsoft Translator Hub est une extension de la plateforme et du service de traduction de Microsoft.
Grâce à Microsoft Translator Hub, les entreprises pourront créer des traductions automatiques bâties sur mesure en fonction de leurs offres commerciales et de la terminologie « maison » qu’elles utilisent. De même, les communautés linguistiques pourront élaborer des systèmes de traduction pour faciliter l’accès à l’information globale de leurs membres, tout en ayant l’avantage de pouvoir mieux partager les connaissances locales d’une culture linguistique restreinte avec le reste du monde, afin d’assurer la vitalité de leurs langues à long terme, à l’intention des générations futures.
Notre guide utilisateur vous accompagnera maintenant étape par étape, tout au long du processus de construction de votre système personnalisé de TA grâce à Microsoft Translator Hub, qui sera dorénavant désigné comme le « Hub ».La procédure est extrêmement simple, il suffit de demander une invitation (le service est gratuit pour une utilisation "normale"), Microsoft vous demande juste de préciser quels sont vos objectifs. En outre, selon leur plaquette de présentation, ils précisent que pour les grosses quantités, le prix sera de 10$ par million de caractères, soit moitié moins que Google ! Donc pour vous donner une idée, si vous comparez ça avec les coûts en traduction professionnelle, pour une même quantité il faudrait compter grosso modo entre 16 000 et 20 000 €...
Poursuivons notre visite du système, en commençant par la création d'un projet :
Vous lui donnez un nom, une brève description, vous choisissez une langue source, une cible (Microsoft autorise pour l'instant le choix parmi ... 1462 langues !), le secteur et éventuellement quelque sous-secteur, puis vous cliquez "Create Project" pour vous retrouver sur une page autorisant le choix entre créer immédiatement le projet ou inviter quelqu'un d'autre pour y participer, et finalement arriver à la page suivante :
La création d'un moteur de traduction automatique suit généralement la procédure des 3T : Training, Tuning & Testing.
1. Training : il s'agit d'alimenter le moteur en lui fournissant des fichiers de segments sources et cibles alignés, pour qu'il puisse se "former". Une fois tous les fichiers bilingues chargés, il faut fournir en plus un corpus monolingue de documents "spécialisés" dans la langue de sortie (ex. si vous traduisez de l'anglais en français, le fichier monolingue devra être FR), pour que le moteur étudie la syntaxe propre à la langue, les idiotismes, etc.
2. Tuning : ce sont les réglages qu'effectue le moteur à partir de phrases "spécialisées", soit directement extraites du corpus, soit expressément fournies.
3. Testing : on teste le moteur sur la traduction de quelques phrases, auxquelles le système applique comme métrique de validation le score BLEU.
Comme vous le voyez dans la capture ci-dessus, vous pouvez cocher la case d'utilisation des modèles de TA Microsoft, auquel cas l'actuelle traduction automatique MSFT s'appliquera par défaut, et les données supplémentaires que vous fournirez au moteur ne lui serviront qu'à peaufiner ses résultats.
Sans cela, ou dans le cas de langues que la plateforme ne prend pas encore en charge, le moteur ne fonctionnera que sur les données que vous lui fournirez...
Ces données seront saisies aux formats TMX, TXT (encodage Unicode UTF-16 ou UTF-8), HTM/L, PDF ou DOCX. Et vu qu'on ne peut charger qu'un fichier à la fois, si vous en avez plusieurs, mieux vaut utiliser un format de compression classique (ZIP, GZ, TGZ), le hub fera le tri tout seul ensuite.
Il est important de noter que pour chaque fichier téléchargé, l'utilisateur s'engage à être le titulaire des droits sur le contenu, automatiquement transférés à Microsoft par le seul fait du téléchargement, qui pourra ensuite en faire ce que bon lui semble. Prudence, donc...
Quant au training, c'est une opération récursive à répéter autant de fois qu'on veut jusqu'à ce qu'on soit satisfait des résultats, en adaptant au fur et à mesure les données à charger.
Les seuils de segments alignés sont définis comme suit par Microsoft pour les différentes étapes :
Le nombre de segments minimum indiqué est de 10 000 pour le training, même si à moins de 40/50 000 le moteur pourra difficilement fonctionner. Toutefois, en règle générale, mieux vaut plusieurs centaines de milliers de segments, voire 1 000 000 et plus...
Ceci dit, ce n'est pas qu'une question de quantité, c'est aussi et surtout un problème de qualité. Plus les fichiers en entrée seront "propres" et "pertinents" par rapport au secteur souhaité, plus le niveau qualitatif en sortie sera satisfaisant. Les deux sont étroitement liés, la qualité en sortie étant proportionnelle à la qualité en entrée.
Dans quelques semaines je ferai un billet sur les premiers résultats obtenus, mais en attendant vous pouvez consulter trois vidéos par Kristin Tolle, directrice du lab Research Connections de Microsoft :
- Getting started (pour commencer)
- Creating a new project
- Training
Dans l'attente de lire le communiqué officiel, un billet a été publié sur un blog de Microsoft, ainsi qu'un autre mettant l'accent sur "la traduction par tous et pour tous", en insistant sur l'utilité de l'outil pour la préservation des langues en danger :
Il sera également intéressant de voir comment Google réagira à la mise en ligne de ce service, avec lequel Microsoft prend sans aucun doute une longueur d'avance sur son rival dans le secteur de la traduction automatique...