mardi 28 février 2012

Le hub de traduction automatique, par Microsoft

Blog de Translation 2.0 Translation 2.0 Search Engine Marketing & Branding for Translators Translation 2.0 di Jean-Marie Le Ray S.a.s. in English Translation 2.0 di Jean-Marie Le Ray S.a.s. in Italiano Translation 2.0 di Jean-Marie Le Ray S.a.s. en français @ Translation 2.0 di Jean-Marie Le Ray S.a.s. RSS Feed for Translation 2.0 Blog Translation 2.0 on Twitter Translation 2.0 on Facebook Jean-Marie Le Ray on LinkedIn Some Clouds on Wordle Some presentations on SlideShare Some video-sharing on YouTube

Voici une grosse, très grosse nouveauté dans le monde de la TA, la traduction automatique ! Une (r)évolution capable d'impacter en profondeur la profession de traducteur, de même que la traduction automatique a commencé à révolutionner la traduction depuis une décennie. Il s'agit du tout nouveau hub de TA signé Microsoft :

LES LANGUES À LA RENCONTRE DU MONDE !

Microsoft Translator Hub jette un pont entre langues, cultures et technologie



Mais écoutons ce qu'ils disent du service dans l'introduction de leur guide utilisateur :
Jusqu’à présent, la traduction automatique (TA) n’a été l’apanage que de quelques grands fournisseurs de services linguistiques. Par conséquent, le nombre de langues couvertes en TA est limité à moins de 100, alors que l’on compte aujourd’hui plus de 7 000 langues parlées dans le monde. Cela limite l’accès des locuteurs natifs aux bases de connaissances mondiales et favorise de plus en plus l’adoption de langues non indigènes, tout simplement car c’est ce que la technologie actuelle rend plus facilement disponible. 
Microsoft Translator Hub permettra donc aux entreprises et aux communautés de construire, former et déployer des systèmes personnalisés de traduction automatique en améliorant la qualité des traductions spécialisées, aussi bien pour les langues solidement établies que pour celles qu’aucun des principaux fournisseurs de services linguistiques n’assure encore. 
Motorisé par Windows Azure™, Microsoft Translator Hub est une extension de la plateforme et du service de traduction de Microsoft. 
Grâce à Microsoft Translator Hub, les entreprises pourront créer des traductions automatiques bâties sur mesure en fonction de leurs offres commerciales et de la terminologie « maison » qu’elles utilisent. De même, les communautés linguistiques pourront élaborer des systèmes de traduction pour faciliter l’accès à l’information globale de leurs membres, tout en ayant l’avantage de pouvoir mieux partager les connaissances locales d’une culture linguistique restreinte avec le reste du monde, afin d’assurer la vitalité de leurs langues à long terme, à l’intention des générations futures. 
Notre guide utilisateur vous accompagnera maintenant étape par étape, tout au long du processus de construction de votre système personnalisé de TA grâce à Microsoft Translator Hub, qui sera dorénavant désigné comme le « Hub ».
La procédure est extrêmement simple, il suffit de demander une invitation (le service est gratuit pour une utilisation "normale"), Microsoft vous demande juste de préciser quels sont vos objectifs. En outre, selon leur plaquette de présentation, ils précisent que pour les grosses quantités, le prix sera de 10$ par million de caractères, soit moitié moins que Google ! Donc pour vous donner une idée, si vous comparez ça avec les coûts en traduction professionnelle, pour une même quantité il faudrait compter grosso modo entre 16 000 et 20 000 €...

Poursuivons notre visite du système, en commençant par la création d'un projet :


Vous lui donnez un nom, une brève description, vous choisissez une langue source, une cible (Microsoft autorise pour l'instant le choix parmi ... 1462 langues !), le secteur et éventuellement quelque sous-secteur, puis vous cliquez "Create Project" pour vous retrouver sur une page autorisant le choix entre créer immédiatement le projet ou inviter quelqu'un d'autre pour y participer, et finalement arriver à la page suivante :


La création d'un moteur de traduction automatique suit généralement la procédure des 3T : Training, Tuning & Testing.

1. Training : il s'agit d'alimenter le moteur en lui fournissant des fichiers de segments sources et cibles alignés, pour qu'il puisse se "former". Une fois tous les fichiers bilingues chargés, il faut fournir en plus un corpus monolingue de documents "spécialisés" dans la langue de sortie (ex. si vous traduisez de l'anglais en français, le fichier monolingue devra être FR), pour que le moteur étudie la syntaxe propre à la langue, les idiotismes, etc.

2. Tuning : ce sont les réglages qu'effectue le moteur à partir de phrases "spécialisées", soit directement extraites du corpus, soit expressément fournies.

3. Testing : on teste le moteur sur la traduction de quelques phrases, auxquelles le système applique comme métrique de validation le score BLEU.

Comme vous le voyez dans la capture ci-dessus, vous pouvez cocher la case d'utilisation des modèles de TA Microsoft, auquel cas l'actuelle traduction automatique MSFT s'appliquera par défaut, et les données supplémentaires que vous fournirez au moteur ne lui serviront qu'à peaufiner ses résultats.

Sans cela, ou dans le cas de langues que la plateforme ne prend pas encore en charge, le moteur ne fonctionnera que sur les données que vous lui fournirez...

Ces données seront saisies aux formats TMX, TXT (encodage Unicode UTF-16 ou UTF-8), HTM/L, PDF ou DOCX. Et vu qu'on ne peut charger qu'un fichier à la fois, si vous en avez plusieurs, mieux vaut utiliser un format de compression classique (ZIP, GZ, TGZ), le hub fera le tri tout seul ensuite.


Il est important de noter que pour chaque fichier téléchargé, l'utilisateur s'engage à être le titulaire des droits sur le contenu, automatiquement transférés à Microsoft par le seul fait du téléchargement, qui pourra ensuite en faire ce que bon lui semble. Prudence, donc...

Quant au training, c'est une opération récursive à répéter autant de fois qu'on veut jusqu'à ce qu'on soit satisfait des résultats, en adaptant au fur et à mesure les données à charger.


Les seuils de segments alignés sont définis comme suit par Microsoft pour les différentes étapes :


Le nombre de segments minimum indiqué est de 10 000 pour le training, même si à moins de 40/50 000 le moteur pourra difficilement fonctionner. Toutefois, en règle générale, mieux vaut plusieurs centaines de milliers de segments, voire 1 000 000 et plus... 

Ceci dit, ce n'est pas qu'une question de quantité, c'est aussi et surtout un problème de qualité. Plus les fichiers en entrée seront "propres" et "pertinents" par rapport au secteur souhaité, plus le niveau qualitatif en sortie sera satisfaisant. Les deux sont étroitement liés, la qualité en sortie étant proportionnelle à la qualité en entrée.

Dans quelques semaines je ferai un billet sur les premiers résultats obtenus, mais en attendant vous pouvez consulter trois vidéos par Kristin Tolle, directrice du lab Research Connections de Microsoft :
  1. Getting started (pour commencer)
  2. Creating a new project
  3. Training
Enfin, un forum dédié sera à la disposition des utilisateurs du hub.

Dans l'attente de lire le communiqué officiel, un billet a été publié sur un blog de Microsoft, ainsi qu'un autre mettant l'accent sur "la traduction par tous et pour tous", en insistant sur l'utilité de l'outil pour la préservation des langues en danger :


Il sera également intéressant de voir comment Google réagira à la mise en ligne de ce service, avec lequel Microsoft prend sans aucun doute une longueur d'avance sur son rival dans le secteur de la traduction automatique...

La traduction automatique : déploiement en entreprise

Blog de Translation 2.0 Translation 2.0 Search Engine Marketing & Branding for Translators Translation 2.0 di Jean-Marie Le Ray S.a.s. in English Translation 2.0 di Jean-Marie Le Ray S.a.s. in Italiano Translation 2.0 di Jean-Marie Le Ray S.a.s. en français @ Translation 2.0 di Jean-Marie Le Ray S.a.s. RSS Feed for Translation 2.0 Blog Translation 2.0 on Twitter Translation 2.0 on Facebook Jean-Marie Le Ray on LinkedIn Some Clouds on Wordle Some presentations on SlideShare Some video-sharing on YouTube


[Ce billet est l'adaptation actualisée d'un "Knol" écrit en août 2008, vu que Google abandonnera ce service à partir du 1er mai 2012.]

* * *

Pour toute entreprise, le choix de déployer un service interne de traduction doit résulter d’une évaluation attentive et chiffrée des pour et des contre. En clair, il s’agit de répondre aux questions suivantes :

A. mes besoins récurrents en traduction justifient-ils la création d’un service dédié ?
B. combien me coûte l’externalisation à 100% du service ?
C. combien me coûterait l’internalisation à 100% de ce même service ?
D. quel serait l'avantage d'étudier un mix externalisation / internalisation, et dans quelles proportions ?

Traditionnellement, que ce soit en TA ou en TAO, l’internalisation d’un service de traduction est une démarche lourde, que justifient uniquement des besoins importants, soit de par la quantité des documents à traduire, soit de par la quantité et/ou difficulté des paires linguistiques requises. La pérennité de la ou des solutions de traduction adoptées est également cruciale.

Donc outre les nécessités connexes liées à des questions de confidentialité, de stratégie, de structure de l’entreprise, de l'intégration à un service de veille, etc., ce n’est que lorsque l'entreprise répond par l’affirmative au point A qu’il vaut la peine d’étudier les 2 points suivants, l'exigence d’une internalisation n’étant justifiée que lorsque le différentiel B - C produit un résultat significatif.

Toutefois, les entreprises évoluant en B2B ou B2C sur des secteurs fortement concurrentiels qui souhaiteraient avoir accès à un système interne de TA ou TAO, sont freinées par un double problème : l’identification des ressources nécessaires et la complexité de leur mise en œuvre, d’où un « ticket d’entrée » relativement élevé.

En outre, entre les deux pôles externalisation/internalisation, il y a également la possibilité de mixer différentes solutions, tout est question de dosage, chaque entreprise étant un cas particulier. Impossible de généraliser en la matière. C'est là la réponse à donner à la question D.

Or le premier obstacle des décideurs, c’est qu’ils sont rarement capables d’évaluer eux-mêmes leurs véritables besoins. Car indépendamment de la solution à retenir, la traduction/localisation reste un processus impossible à mettre en œuvre si l’on ne sait par où débuter. D’où l'impératif de commencer par auditer l’écosystème traductionnel existant – ou pas –, chose que seul un professionnel expérimenté est en mesure d’établir, pour prodiguer ses conseils aux entreprises qui veulent y voir plus clair dans la gamme des solutions possibles, dont nous mentionnerons brièvement :
  1. le recours aux traducteurs indépendants ou le recrutement de traducteurs internes ;
  2. le recours aux cabinets de traduction ou la création d’une cellule interne ;
  3. l’adoption d’une solution de TA, de TAO, de dictée, etc.
Le point 1. est peu souhaitable pour le traitement de gros volumes, vu les problèmes soulevés d’homogénéité linguistique et de coordination des équipes (internalisées ou externalisées), auquel cas le point 2. est mieux adapté.
Mais le point 2. pose la question du contrôle sur la qualité finale : plus vous déléguez à un bureau de traduction, moins vous maîtrisez le processus. Et inversement.

Autres questions : faut-il intégrer le paramètre "sécurité et confidentialité" des contenus à traduire ? Quelle est la fréquence des traductions et quels doivent être les temps de réaction aux besoins ? L’urgence et la réactivité sont souvent des facteurs clés : imaginez une entreprise devant répondre à un appel d’offres dans des délais généralement très courts, contrainte de rédiger d’abord dans sa langue la documentation à soumissionner, puis de la traduire…

Le dimensionnement d’une cellule dédiée, ou d’un service plus étoffé, dépend donc des critères ci-dessus, des volumes à traiter, des domaines, des langues concernées, etc.

La TA est plus adaptée à des domaines circonscrits, où la terminologie est déjà relativement fixée, pour des solutions professionnelles et des paires linguistiques éprouvées. La phase de post-édition dépend ensuite du niveau de qualité souhaitée.

Dans la TAO, plus flexible, l’édition se fait au fur et à mesure, mais la qualité est fortement interdépendante de celle des mémoires de traduction pré-existantes. Les mémoires sont les volets « capitalisation du savoir » de l’entreprise et « réexploitation rapide et efficace » des connaissances accumulées au fil du temps, si l’on veut éviter de devoir « réinventer l’eau chaude à chaque fois ».
  • Dans la TAO, la constitution initiale des mémoires est un processus crucial, dont va dépendre la qualité du travail à suivre…
  • Idem dans la TA, pour la création des corpus terminologiques bilingues et multilingues qui vont servir de base au moteur de traduction automatique.
  • Idem encore pour la constitution des glossaires « maison », où l’utilisation d’outils d’extraction terminologique tels que Similis facilite grandement le travail.
Or dans ces trois cas, bien que les outils apportent rapidité et productivité, le niveau d’automatisation a ses limites, ce qu’on appelle l’effet Mozart dans l’industrie GILT), selon la métaphore de Rory Cowan, PDG de Lionbridge, actuellement n° 1 de la localisation dans le monde :
Si, en 1790, il fallait cinq musiciens pour interpréter un quintette de Mozart durant tant de minutes, aujourd'hui, en dépit des progrès techniques considérables qui ont été accomplis depuis, rien n'a changé : il faut toujours autant de musiciens jouant pendant autant de temps pour restituer la même œuvre !
Une belle métaphore sur l'incompressibilité de certains délais d'exécution, qui souligne implicitement l’incapacité de la technologie à répondre à tout sans intervention humaine, y compris au plan de la productivité.

Pour donner un exemple, Translation 2.0 est capable d'exploiter une base terminologique multilingue unique au monde, fruit de plus de 25 ans de « capitalisation du savoir » :
  • 4 Téraoctets de données
  • Des milliards de termes contenus dans +10 millions de fichiers
  • +300 millions de mots clés indexés
  • la possibilité de créer des bi-textes à la volée, etc.
Pour comprendre l’importance d’une telle ressource, il suffit de comparer avec la base terminologique d’EADS : 600 000 entrées.

Donc pour chaque entreprise disposant de son propre patrimoine terminologique et linguistique, l’enjeu consiste à organiser et optimiser cette base, souvent hétérogène et partiellement déstructurée, en s'appuyant d’abord sur des briques logicielles et des Web services existants pour la partie moteur/indexation, afin d’exploiter ce gigantesque corpus linguistique, de le classifier/hiérarchiser, puis d’en extraire un « modèle structurel » adaptable et déployable en interne, qui ajoute au noyau initial, constitué des données « maison » de celle-ci, d'autres données terminologiques pertinentes – secteurs et langues – identifiées d’un commun accord avec les responsables des services concernés.

Car non seulement les mots d’une entreprise font partie de son patrimoine, mais ils peuvent aussi devenir l’un de ses actifs immatériels, et in fine un avantage concurrentiel précieux…

Une approche parfaitement compatible avec le déploiement de fonctionnalités « Web 2.0 », dont la logique communautaire et participative est particulièrement adaptée à ces besoins. D’ailleurs, plus que de base terminologique, il convient de parler d’environnement modulable de traduction, multisecteur, multilingue, multiformat, multisource, etc.

Autant de facteurs que le service interne doit aider à expliciter, afin de mettre en place une véritable politique linguistique et de communication multilingue. Car les commerciaux ne doivent jamais oublier que tout document produit par l’entreprise est une vitrine de celle-ci, et plus encore lorsque ces documents passent les frontières : géographiques, linguistiques, culturelles.

Quant à être tentés d’utiliser des systèmes automatiques "cost free" tels qu’il en existe beaucoup sur Internet, disons que ça passe tout juste si vous souhaitez avoir un aperçu de certains événements, savoir en gros de quoi parle une lettre ou un article, etc., mais si vous deviez participer à un appel d’offres crucial pour l’avenir de votre entreprise, en confieriez-vous les destinées à une solution de ce genre ?

Non ! N’est-ce pas ? Vous venez d’appliquer une autre règle d’or de la prise de décision : la destination des traductions est un critère déterminant pour le choix des outils.

Donc indépendamment du point précis du process où se trouve votre entreprise, sachez que vous avez toujours un choix à faire, celui de la meilleure option : externaliser ? internaliser ? en tout ou en partie ? tirer profit des gains de productivité de la TA ? de la TAO ? de la dictée ? d’un système hybride ? d’outils gratuits ? payants ? etc.

Même si, au final, la décision d’internaliser ou non un service de traduction se résume à un compromis à plusieurs niveaux, entre, d’une part, vos exigences en termes de coûts, de délais et de qualité, et, de l’autre, les ressources à mettre en œuvre – humaines, matérielles et logicielles – pour satisfaire ces mêmes exigences en dimensionnant votre service au plus juste.

Mais les ressources potentielles mises à disposition par Google et, last but not least, Microsoft, entre autres, autorisent maintenant à faire des pas de géants dans le déploiement en entreprise de plateformes de traduction automatique.

Le tout est de savoir par où commencer, raison pour laquelle faire appel à un consultant (ou un "consulente") capable de guider vos choix en matière de TA peut bien s'avérer la première bonne décision à prendre !