vendredi 3 juin 2011

Google & Traduction automatique : évolution dans le temps

Blog de Translation 2.0 Translation 2.0 Search Engine Marketing & Branding for Translators Translation 2.0 di Jean-Marie Le Ray S.a.s. in English Translation 2.0 di Jean-Marie Le Ray S.a.s. in Italiano Translation 2.0 di Jean-Marie Le Ray S.a.s. en français @ Translation 2.0 di Jean-Marie Le Ray S.a.s. RSS Feed for Translation 2.0 Blog Translation 2.0 on Twitter Translation 2.0 on Facebook Jean-Marie Le Ray on LinkedIn Some Clouds on Wordle Some presentations on SlideShare Some video-sharing on YouTube

[MàJ - 4 juin 2011] Face à la réaction immense provoquée par l'annonce de Google, la société a décidé de tarifier l'utilisation de l'API...

Télécharger mon Livre blanc sur Google et la traduction automatique ! (nouvelle version intégrant ce billet, à venir sous peu...) ou voir le point sur la réalité actualisée de la traduction automatique en 2014 ! 

* * *

Je crois avoir été l'un des rares sur le Web francophone à m'intéresser dès 2006 au binôme Google + Traduction automatique, suite à l'annonce par Google du lancement de son service de traduction automatique statistique, premier billet de plus d'une dizaine consacrés à ce sujet passionnant ... et plein d'avenir (ordre chronologique inverse) :
Or dans un grand nettoyage de printemps, Google vient de décider d'abandonner 18 API à plus ou moins court terme ("interfaces de programmation" pour les intimes), dont son API Traduction, déjà retirées de la page dédiée de Google. Et tandis que pratiquement personne ne semble vraiment bouleversé par l'abandon de 17 des "interfaces" jugées "obsolètes" par Google, il n'en va pas de même pour l'API Google Translate : le vieil adage Google traduttore = Google traditore n'a jamais paru aussi approprié !

Infâme traîtrise de Google, énorme surprise et déluge de commentaires, de critiques, de billets de blog, d'articles, etc., où l'incrédulité se mêle à la colère, voire à la fatalité : ô rage, ô désespoir, ô Google ennemi !

Je voudrais donc essayer de relativiser et mettre les choses en perspective, en basant ma réflexion sur la lecture d'une longue et très pertinente analyse de Dion Wiggins, CEO d'Asia Online, autre acteur de premier plan dans la TA ("Traduction Automatique" ; "Machine Translation", ou MT, en anglais).

Mais qu'est-ce que l'API Google Translate ? Pour faire simple, disons que c'est l'interface permettant à une application qui embarque l'API de négocier entre ladite application et les serveurs de Google sans passer par le navigateur de l'utilisateur.

Autrement dit, si vous développez une application en ligne embarquant l'API, vous avez gratuitement à votre service toute la puissance de Google Traduction, gratuitement. Pour autant, dans ses conditions de service, Google mettait plusieurs freins à l'utilisation de l'API, dont celui-ci :
You agree that You are responsible for your own conduct and content while using the Service and for any consequences thereof. You agree to use the Service only for purposes that are legal, proper and in accordance with these Terms of Use and any applicable policies or guidelines. By way of example, and not as a limitation, You agree that when using the Service, You will not, and will not permit your end users or other third parties to:
(...)
* copy, store, archive, republish or create a database of Google Results, in whole or in part, directly or indirectly, etc.
En d'autres termes, le verbe clé, ici, c'est "republish" : il était totalement interdit d'utiliser l'API pour traduire son texte source et REPUBLIER le résultat obtenu. Or on ne compte plus le nombre de sites entièrement construits autour des textes cibles traduits en automatique par l'API Google, dont le seul but n'est que de créer gratuitement et massivement du "contenu" dans toutes les langues possibles pour y greffer des Adsense ou autres, et gagner ainsi de l'argent à bon compte. En clair, il suffit d'avoir un site base dans une langue et de le traduire dans les 50 langues et + disponibles pour obtenir à la volée une cinquantaine de sites bourrés de pubs. Dans la série "les incohérences de Google"...

Google invoque donc un coût économique excessif provoqué par les abus d'utilisation répandus (substantial economic burden caused by extensive abuse) pour arrêter définitivement l'API le 1er décembre 2011, en laissant 6 mois aux développeurs pour changer d'API (et dans l'alternative, tout porte à croire que Microsoft sera le grand "bénéficiaire", si l'on peut dire...), au lieu des 3 ans initialement prévus (cf. 1.3 Deprecation).

Ma première réaction face à cette justification a été plutôt grégaire, en pensant comme tout le monde que le coût des serveurs mobilisés pour l'API Google Translate n'était qu'une goutte d'eau dans l'océan de services offerts par Google, d'où une décision ridicule qui n'était probablement qu'un prétexte dissimulant d'autres finalités. Sur lesquelles il était permis d'extrapoler. Comme celle de faire payer le service dans un deuxième temps, par exemple.

Ceci dit, à la lecture de la brillante analyse de Dion Wiggings, j'ai compris que je faisais fausse route, sur un point qui m'avait totalement échappé (j'aurais pourtant dû y penser !) : celui de la pertinence des contenus, qui est la clé de voûte soutenant la stratégie de Google et TOUT son modèle économique !!!

En effet, même une publicité pertinente affichée sur un contenu de mauvaise qualité ne transforme pas. Et tous les textes générés par la traduction automatique sont de mauvaise qualité. Très souvent compréhensibles, certes, mais qualitativement médiocres sans post-édition humaine. D'où le mécontentement des annonceurs d'une part, avec un taux de conversion de leurs publicités proche de zéro, ce qui va dans la direction très exactement opposée aux dernières nouveautés de Google avec son algorithme Panda, et une pollution gigantesque du référentiel traduction de Google de l'autre. Un référentiel autrement dénommé Large-Scale Translation Memory, à savoir la mémoire de traduction à très grande échelle de Google, que j'ai appelée en son temps "mémoire de traduction universelle" (cliquer le lien pour les principes de base d'une mémoire de traduction).

Car en fait la TA selon Google a essentiellement deux publics bien distincts : grand public d'une part, et monde de la traduction professionnelle de l'autre, catégorie à laquelle j'appartiens. Voici donc un exemple de la façon dont l'environnement de traduction Wordfast implémente les API de traduction automatique (Google et Microsoft, dans ce cas) :


Le logiciel fractionne le texte en proposant un segment source (celui de la langue à traduire, en turquoise dans la capture d'écran) et un segment cible (celui de la langue traduite, en grisé). Si le segment source n'est pas déjà dans la mémoire de traduction dont vous disposez (à savoir le référentiel où sont mémorisées toutes vos traductions précédentes), l'appli de TA vous propose une solution que vous pouvez valider telle quelle, modifier ou refuser. Dans l'exemple ci-dessus, la traduction proposée par le module Google doit être légèrement modifiée, tandis que celle de Microsoft est parfaite. Il suffit de taper sur "entrée" et le segment cible validé va enrichir votre mémoire de traduction préexistante. Et ainsi de suite, segment par segment.

Une autre façon de procéder est de pré-traduire en automatique l'intégralité d'un texte, et de le post-éditer en y apportant toutes les modifications nécessaires. Au final, le gain - ou la perte - de temps dépend étroitement du niveau qualitatif de la pré-traduction : si elle est de bonne ou d'assez bonne qualité, vous gagnez beaucoup de temps, comme dans l'exemple, où la validation vous évite de saisir effectivement 4 mots (multipliez ça par des milliers de mots sur des centaines de pages, pour avoir une idée...) ; dans le cas contraire, mieux vaut traduire en repartant de zéro, mais inutile d'entrer dans les détails !

Or s'il y a aujourd'hui un seul constat à faire en traduction professionnelle, c'est bien que "Machine Translation is the Next Big Thing!" : la traduction automatique va révolutionner le petit monde de la traduction, d'autant plus que les différents moteurs de TA pourront être utilisés par le plus grand nombre de traducteurs. Mais ça c'est une autre histoire, sur laquelle je reviendrai probablement un jour...

Donc il est évident que le retrait de l'API Google Translate, vu sa qualité - certainement l'une des meilleures du marché, si ce n'est la meilleure -, inquiète fortement tous les acteurs qui l'ont intégrée jusqu'à présent dans leurs applications.

J'ai commenté le billet de Dion en mettant en relation cette décision et l'apparition fugace, il y a 3 ans, des bases de ce que serait le centre de traduction de Google, à quoi il m'a répondu ce qui suit :
@Jean-Marie - Thanks for your feedback. There has been much speculation since the launch of Google Translate about competing with professional translators or the professional translation industry.

The reality is that first of all the quality is not that of a human and second that Google is not in the business of translation. Google is in the business of organizing the worlds information so that it can attract advertising revenue (customers) to the content that it has helped organized so that users (product) can view it. Translation is a tool for Google that helps to achieve this goal.

In the upcoming Part 2 of my analysis I will cover many of the issues that relate to the professional translation industry.
En gros, « depuis le lancement de Google Translate, beaucoup ont supposé que Google ferait ainsi concurrence avec les traducteurs de métier ou avec l'industrie de la traduction professionnelle.

Mais la réalité, c'est d'abord que la qualité n'est pas comparable à celle d'un traducteur humain, et ensuite que la traduction n'est pas le métier de Google (...), juste un outil lui permettant de réaliser sa mission...
 »

Dion ajoute qu'il abordera les implications de la décision de Google pour l'industrie de la traduction professionnelle dans la deuxième partie de son analyse, à publier sous peu. Je l'attends avec impatience.

Ceci dit, mon sentiment n'est pas que Google veuille faire de la concurrence à nos métiers, mais plutôt que le déploiement à grande échelle de son centre de traduction serait une rupture totale du modèle actuel d'intermédiation, dans lequel les agences de traduction servent le plus souvent d'intermédiaires entre le client final et le traducteur qui fait le travail.

Une désintermédiation de la plateforme de Google ferait probablement d'immenses dégâts dans le métier, en permettant un contact direct et facile entre clients et traducteurs, tout en mettant en concurrence traducteurs professionnels et tout-un-chacun ayant une connaissance plus ou moins approfondie d'une deuxième langue. Ce qui est le principe du crowdsourcing, déjà mis en place avec succès par Facebook, Twitter et d'autres...

Comme je l'indiquais clairement en concluant mon billet :
...le rôle du centre de traduction de Google, c'est de fournir une plateforme de traduction via laquelle des transactions pourront avoir lieu entre demandeurs (y compris Google, le cas échéant) et prestataires, ces derniers dégageant Google de ses responsabilités dans le cadre de leurs accords, contre paiement ou pas, avec des tiers.

De même, dans sa FAQ, Google nous dit que son centre de traduction s'inscrit dans l'effort déployé pour rendre l'information universellement accessible grâce à la traduction (
Google Translation Center is part of our effort to make information universally accessible through translation).

C'est librement à la disposition de tous les traducteurs (
We provide Google Translation Center tools to all translators), bénévoles et professionnels, ce qui suppose bien sûr un paiement, dans ce dernier cas (via Google Checkout ?).

Selon Google, son service devrait d'emblée être disponible en 40 langues, couvrant 98% des internautes (
Google Translation Center supports translations into 40 languages, covering 98% of the world's Internet users).

En conclusion, il est encore bien trop tôt pour comprendre l'impact de ce nouveau service, mais ce qui est sûr, c'est qu'il s'agit là d'une nouvelle révolution destinée à bouleverser l'univers de la traduction, et, donc, des traducteurs professionnels, qui n'en avaient déjà pas besoin...
Car, ce faisant, Google, qui dispose déjà de la plus grande mémoire de traduction du monde, s'apprêterait à en démultiplier la portée et la qualité. En mettant "gratuitement" ses outils ultra-performants à disposition des traducteurs contre la possibilité d'exploiter LA mémoire de traduction universelle ainsi créée, soit un deal gagnant-gagnant pour Google et ceux qui feraient traduire leurs contenus, sous réserve de la confidentialité des données et de la propriété des mémoires, mais ce sont là d'autres aspects qui échappent à la portée limitée de ce billet.

Donc, pour finir cette partie de mon analyse, la décision de Google a un rapport étroit avec l'abus "grand public" de son API traduction, ce qui est parfaitement compréhensible dès lors que cet abus nuit gravement à la pertinence du système de traduction automatique en polluant la mémoire globale de Google (sans parler de l'impact extrêmement négatif sur son modèle économique et publicitaire, basé depuis toujours sur la qualité comme premier critère), mais la relation entre Google et les traducteurs de métier (de ceux qui exercent en profession libérale aux fournisseurs de services linguistiques), via l'utilisation possible de l'API dans des environnements de traduction pro ou via le déploiement de la nouvelle place de marché du XXIe siècle que serait le Centre de Traduction de Google, reste encore à éclaircir. Et pourrait bien réserver quelques surprises...

Aucun commentaire:

Publier un commentaire