lundi 2 avril 2012

Communication sur Microsoft® Translator Hub

Blog de Translation 2.0 Translation 2.0 Search Engine Marketing & Branding for Translators Translation 2.0 di Jean-Marie Le Ray S.a.s. in English Translation 2.0 di Jean-Marie Le Ray S.a.s. in Italiano Translation 2.0 di Jean-Marie Le Ray S.a.s. en français @ Translation 2.0 di Jean-Marie Le Ray S.a.s. RSS Feed for Translation 2.0 Blog Translation 2.0 on Twitter Translation 2.0 on Facebook Jean-Marie Le Ray on LinkedIn Some Clouds on Wordle Some presentations on SlideShare Some video-sharing on YouTube

Voici maintenant un mois que la traduction automatique a un nouvel acteur : Microsoft ! Le géant de Redmond, déjà actif dans la TA avec Bing, offre depuis fin février aux internautes de toutes les langues une véritable plateforme dédiée : http://hub.microsofttranslator.com, dont l’objectif philanthropique avoué - protéger les langues en danger d'extinction - se double du désir de mettre à la disposition des entreprises et des professionnels, mais surtout des fournisseurs de services linguistiques, une technologie capable d'apprendre à partir de textes déjà traduits : un nouvel outil fort utile pour aider à traduire dans divers domaines productifs.

Or le résultat de la traduction automatique étant strictement dépendant de la qualité et la quantité de textes déjà traduits par des professionnels, d’importants opérateurs du secteur testent déjà le système, disponible à tous, dont Soget, en collaboration avec Translation 2.0 (versione italiana) sur les couples de langues et les domaines suivants :
Les résultats des tests seront disponibles avant la fin de ce trimestre.

Développé sur Windows Azure™, Microsoft Translator Hub, qui est une extension de la plateforme et des services de traduction de Microsoft, permet aux entreprises de créer leur propre moteur de traduction automatique, personnalisé en fonction de la terminologie « maison » qu’elles utilisent pour mieux promouvoir leurs offres commerciales à l’international.

Idem pour les communautés linguistiques et culturelles qui pourront développer des systèmes de TA sur mesure, afin de faciliter l'accès de leurs membres à une information désormais mondialisée. Avec un double avantage : permettre à des communautés restreintes de mieux partager des connaissances locales dans le village global de l’Internet, et assurer la vitalité de leurs langues pour garantir à long terme un bénéfice socioculturel à l’intention des générations futures.

Les applications de ce nouveau système de traduction automatique sont nombreuses :
  • localisation et actualisation permanentes de la présence institutionnelle des entreprises sur le Web,
  • traduction de leurs bases de connaissances, des FAQ, de leur documentation technique et commerciale, etc.
Un potentiel énorme, donc, mais qui nécessite cependant une utilisation judicieuse de l'outil en y ajoutant des fonctionnalités pointues de post-édition pour améliorer en permanence les traductions obtenues.

Un succès garanti pour toutes les sociétés qui ne recherchent pas uniquement un bénéfice immédiat bien que partiel, mais plutôt une solution de moyen-long terme visant à réduire les délais et les coûts grâce à une intégration intelligente entre la technologie de pointe d’une part, et l’expertise professionnelle traditionnelle de l’autre.

mercredi 7 mars 2012

Sémantique événementielle et sociale

CV de Jean-Marie Le Ray Translation 2.0 Search Engine @ Translation 2.0 di Jean-Marie Le Ray S.a.s. Translation 2.0 di Jean-Marie Le Ray S.a.s. in Italiano Translation 2.0 di Jean-Marie Le Ray S.a.s. en français Translation 2.0 di Jean-Marie Le Ray S.a.s. in English Marketing & Branding for Translators RSS Feed for Translation 2.0 Blog Translation 2.0 on Twitter Translation 2.0 on Facebook Jean-Marie Le Ray on LinkedIn Some Clouds on Wordle Some presentations on SlideShare Some video-sharing on YouTube


Cloud²
Cloud Corpora        < - - >        Semantic Cloud

Un sujet, un personnage, un événement, une société, une marque quelconque vous tient à cœur, or vous souhaiteriez savoir et mieux comprendre ce qui s’en dit sur le Web, mais pas seulement, à un moment donné. En parle-t-on ? En quels termes ? Pourquoi ? Pour qui ? Où ? Quand ? Comment la chose est-elle perçue ? etc.

Cela est désormais possible, et facilement réalisable : plus besoin de sondages coûteux, d’études de marché compliquées : la sémantique événementielle et sociale, grâce au traitement ponctuel de corpus, suffit pour obtenir des résultats d’une grande précision et pertinence !

Voyons comment.

Tout événement (à prendre au sens large : conférence, lancement d’un produit/service, perception d’une marque/une société/une personnalité, buzz négatif/positif, etc.) génère des situations, des circonstances et des contenus, et son propre discours pour les expliciter.

Sur le Web, ce discours, souvent qualifié de « conversation sociale », se crée plus ou moins spontanément autour d’un événement quelconque, une conversation globale à laquelle participent des interlocuteurs de toutes langues et cultures, tous pays et tous horizons, sur les principaux réseaux sociaux qui sont désormais les catalyseurs de cette conversation, beaucoup plus que la presse ou les médias traditionnels.

Aujourd’hui, il n’est plus d’événement qui n’ait sa propre déclinaison sur Facebook, Twitter, Google+, LinkedIn, etc., à travers des pages ou des comptes dédiés, et dont le message soit relayé à la puissancen via billets de blogs, articles de journaux, vidéos, infographies, photos, livres blancs et autres documents connexes, liens et commentaires, et ainsi de suite.

Or l’événementiel et le social ont en commun le discours, qui lie explicitement chaque événement à son environnement « communautaire » : tous les gens qui en parlent, en bien et/ou en moins bien, créent à chaque occasion un immense « corpus », malheureusement ignoré entre bruit (gigantesque brouhaha de messages dupliqués par dizaines ou centaines, voire milliers, sans que l’un n’apporte véritablement de valeur ajoutée à l’autre) et silence (le message ne parvient pas à ses destinataires « naturels », souvent découragés par le bruit…), et par conséquent inexploré la plupart du temps.

En tout cas presque jamais analysé, sauf à mettre en œuvre des moyens disproportionnés, et donc coûteux et hors de portée.

Il s’agit alors, en premier lieu, de reconstituer cette conversation pour en rendre le discours, homogène sur le fond (puisque focalisé sur l’événement et ses conséquences) mais hétérogène dans la forme (car éparpillé, protéiforme et multilingue), en le réunissant au sein de 1) un corpus cohérent, créé au cas par cas, que l’on pourra traiter à volonté pour dégager du sens d’un magma de données au départ disparates, ce qui est l’objet de 2) la sémantique.

I.         Le corpus
II         La sémantique

* * *


I.         Le corpus

En linguistique de corpus traditionnelle, les caractéristiques essentielles à prendre en compte pour constituer un corpus significatif (qui a du sens, et qui fait sens), homogène et pertinent, sont :

  • la taille : impossible d’extraire des informations fiables à partir d’un corpus trop petit, il faut donc une taille critique minimale (qui peut varier énormément selon les finalités, si un corpus dépassant 54 millions de mots est parfois considéré de taille moyenne) ; (source)
  • le langage et le registre : généralement une seule langue et un seul registre (inutile de mélanger textes philosophiques et spécifications de moteurs de fusée, par exemple) ;
  • le temps couvert par les textes du corpus : trop de différences entre un texte médiéval et moderne, etc.

Le but étant généralement d’analyser les usages attestés et diversifiés du langage.

En Web événementiel et social, outre les prérequis de l’homogénéité et de la pertinence, qui restent des invariants, seuls les critères de taille et de temps restent inchangés, car les informations collectées sont presque toujours en plusieurs langues, hypertextuelles (liens renvoyant vers de nouvelles sources) et peuvent couvrir différents domaines. Quant au temps, l’Internet grand public est trop jeune puisqu’il se compte tout juste en décennies, on préférera donc appliquer une notion de « fenêtre temporelle », définissable à chaque fois en fonction de l’échantillon « événement » considéré.

Ainsi, lorsqu’on étudie sur le Web un univers quelconque pour en dégager une nomenclature des concepts qui le caractérisent davantage, les deux premiers corpus d’analyse possibles sont :

  • Les noms de domaines
  • Les réseaux sociaux

*

  • Les noms de domaines
Le corpus existant est le fichier des .COM de Verisign, actualisé une fois toutes les 24 heures, qui totalisait en décembre 2011 pas loin de 100 millions de domaines, une base de données unique bien que partielle.

Prenons pour exemple le concept de « gamification » à travers une expérience réalisée le 3 janvier 2012 pour analyser tous les noms de domaine en .COM liés au jeu.

En interrogeant le fichier Verisign, on extrait d’abord tous les noms contenant la séquence GAM, en obtenant 440 212 noms, dont 82,58% (soit 363 519 noms) contiennent la séquence GAME (317 380 = 72,1%), et GAMI (46 139 = 10,48%), desquels on enlève tous ceux avec GAMING inside (36 152, soit 78,35% des *GAMI*), en retenant uniquement la séquence GAMIF (540 noms, soit 5,4%), puis en isolant *GAMIFI* (263 noms, dont 170 GAMIFICATION et 40 GAMIFIED), et *GAMIFY* (154 noms), afin d’obtenir un fichier d’analyse définitif de 417 noms en .COM.

Le raisonnement est le suivant : si vous souhaitez enregistrer « www.gamification.com », il est évident qu’il est pris. Or si nous avons 170 noms qui incluent le terme « gamification », cela signifie que les 169 autres noms utilisent en apposition un qualificatif, un substantif, un chiffre, etc. Idem pour « gamified.com » et « gamify.com », etc.

Et il est tout aussi évident que les qualificatifs ou les autres substantifs choisis en apposition au concept clé doivent être pertinents et en relation avec l’idée de gamification, donc une fois que vous éliminez les termes GAMIFICATION, GAMIFIED et GAMIFY de ce fichier, vous obtenez tous les termes connexes censés préciser le concept clé, qui caractérisent ainsi l’univers de la gamification.

Voici le nuage sémantique correspondant :




Un raisonnement duplicable à n’importe quel autre concept, même s’il n’est pas toujours possible de l’exploiter : c’est parfait avec des séquences comme *GAMIF*, extrêmement spécifiques, mais impossible à utiliser dès que vous passez à des termes génériques, très courants et polysémiques (imaginez LOVE !).

Pour autant, si cette première forme n’est pas toujours praticable, la seconde l’est.

  • Les réseaux sociaux
Le Web est un puits sans fond pour constituer à la volée autant de corpus sur autant de domaines qu’on veut. Il suffit de tracer un sujet sur Twitter, Facebook ou autre, pour avoir un flux permanent d’actus, de blogs, etc.

Quant aux principaux composants servant à former un corpus caractérisé a priori, homogène et pertinent, ce sont la qualité d’un côté, l’exhaustivité de l’autre, et l’équilibre au milieu en essayant de refléter toutes les opinions possibles, positives, négatives et neutres. Les billets et les articles largement commentés sont très utiles dans ce sens, car généralement les débats lancés en commentaires expriment cette pluralité de vues. Les rapports d’étude sont également précieux, en ce qu’ils présentent toujours les pour et les contre avant de conclure.

Ainsi, selon l’événement considéré, la taille du corpus peut varier entre 10 et 100 000 mots ou plus, dont l’on extrait les occurrences plus fréquentes.

Au sens strict, la fréquence désigne un nombre d’éléments par rapport à un ensemble plus large auxquels ils appartiennent. Cette fréquence peut s’exprimer en % ou en fraction de 1 (1 signifiant 100% de l’ensemble). Elle se calcule en divisant la donnée par le tout.


Pour ce qui nous concerne, c’est beaucoup plus simple : lorsque les gens mentionnent un événement, ils parlent le plus de ce qu’ils considèrent le plus important, autant en positif qu’en négatif. Donc en extrayant les termes plus utilisés, nous obtenons la quintessence du discours. CQFD !

Simple démarche statistique (empirique et non pas scientifique), qui comprend :

A)    la collecte des données (définition de l’échantillon / création du corpus) ;
B)     le traitement des données collectées (statistique exploratoire / analyse des données) ;
C)    l’interprétation des données (statistique inférentielle / prise de décision) ;
D)    la visualisation des données pour les rendre plus aisément compréhensibles (nuage sémantique / réseau notionnel).


La durée de l’événement, enfin, correspond à une fenêtre temporelle qui se décline en une fenêtre d’événement et en fenêtres de non-événement.

La fenêtre d’événement comprend trois périodes :

  1. période pré-événement (en jours ou en semaines, jusqu’à un mois au plus),
  2. période de l’événement lui-même (de 1 à quelques jours, une semaine au plus),
  3. période de post-événement (en jours ou en semaines, jusqu’à un mois au plus).

ces valeurs n’étant données qu’à titre indicatif, puisque selon le type de découpage choisi, cela peut varier de quelques heures à l’infini…

Accessoirement les fenêtres de non-événement contiennent par exclusion toutes les autres périodes, généralement les mois et années qui ont précédé, voire suivi.
Source : le découpage temporel ci-dessus s’inspire du travail de M. Fouad Machrouh, du Laboratoire d’Analyse et de Prospective Economiques (LAPE) de l’Université de Limoges, sur la présentation d’un outil de prédiction des crises bancaires.

*

Tout corpus ainsi constitué (A), une fois traité (B), fournit la liste des termes qui le composent classés par fréquence, dont on élimine les mots vides et non significatifs pour se concentrer sur, disons les 100 premiers obtenus (ou 10, 20, 50, etc., selon les buts que l’on se propose), qu’il s’agit d’interpréter (C) et de présenter (D) ensuite sous forme de nuage sémantique et/ou de carte heuristique et/ou conceptuelle.

Pour donner une idée du pouvoir de « simples mots », dans les années 60, certaines études statistiques effectuées sur le lexique général du français (cf. P. Guiraud, 1959), établissaient que 100 mots bien choisis assuraient un taux de couverture d’environ 60%, 1 000 mots 85%, et 4 000 mots 97,5% du lexique (alors qu’il fallait au moins 40 000 mots pour couvrir les 2,5% restants).


Or l’on parle ici du lexique général de la langue, soit grosso modo 100 000 termes, dont 4% (4 000 mots) couvrent 97,5% de l’ensemble ! D’ailleurs ce seul bagage de quelque 4 000 vocables suffit à s’exprimer et à soutenir une conversation en français, et il en va de même dans pratiquement toutes les langues.

Autrement dit, si l’on rapporte ces pourcentages à des corpus beaucoup plus restreints et ciblés, il est évident que les 100 premiers mots (épurés des mots vides, des pronoms, des connecteurs, des chiffres, etc.) par fréquence statistique couvrent beaucoup plus que 60% de l’univers, dans une proportion difficile à quantifier avec précision, mais que nous pourrions qualifier comme taux de couverture particulièrement concentré et représentatif, dont la qualité et l’exhaustivité sont proportionnels à la qualité et l’exhaustivité du corpus constitué.

Quelques dizaines de mots suffisent ainsi à « qualifier » l’événement d’autant plus qu’ils se rapportent étroitement au réseau notionnel du domaine considéré, c’est-à-dire qu’ils sont interreliés et forment un tout, un cadre conceptuel permettant de décrire un système qui fait sens et dont le rapport entre les mots est une représentation de ce sens.

Poursuivons notre exemple précédent sur la « gamification », avec un corpus constitué à partir des réseaux sociaux.

A) La collecte des données

Pour définir l’échantillon servant à créer le corpus, il a suffi de tracer sur Twitter le terme « gamification » pour identifier une centaine de liens, ayant conduit à la formation de deux corpus (l’un en anglais, l’autre en français), formés d’études et de billets de blog rédigés par des experts du domaine.

Soit un total de 84 documents pour un corpus anglais de 138 356 termes, et 17 documents pour un corpus français de 41 391 termes, cette différence quantitative s’expliquant par le fait que, face à la profusion de documents en anglais, il est naturellement plus difficile de trouver des sources de qualité en FR.



B) Le traitement des données collectées

Une fois le fichier constitué, la table de fréquences des termes est établie par ordre décroissant (numérique), avec en haut de tableau ceux qui ont le plus grand nombre d’occurrences. Le classement par ordre croissant (alphabétique) sert à d’autres usages.

Voici la liste respective des 60 premières occurrences des deux corpus :

0006954 THE
0001952 DE
0004536 TO
0001072 LE
0004006 OF
0000984 A
0003534 AND
0000946 LA
0003506 A
0000911 DES
0002488 IN
0000844 LES
0002229 THAT
0000828 ET
0002186 IS
0000809 L
0001406 FOR
0000693 UN
0001337 IT
0000651 D
0001243 S
0000601 EN
0001207 GAME
0000564 JEU
0001109 THIS
0000540 EST
0001091 ARE
0000488 DU
0001074 AS
0000428 DANS
0000956 WE
0000418 UNE
0000925 WITH
0000394 QUE
0000901 ON
0000358 POUR
0000887 YOU
0000321 QUI
0000860 BE
0000319 JEUX
0000854 I
0000313 PAR
0000808 GAMIFICATION
0000278 SUR
0000758 GAMES
0000276 IL
0000739 CAN
0000254 PAS
0000647 OR
0000234 PLUS
0000626 AN
0000233 OU
0000624 HAVE
0000233 CE
0000592 BY
0000199 ON
0000585 THEY
0000198 AU
0000584 WILL
0000191 VIDEO
0000559 IF
0000186 COMME
0000553 NOT
0000184 SE
0000538 FROM
0000169 NE
0000536 BUT
0000163 N
0000515 YOUR
0000163 MAIS
0000496 AT
0000158 S
0000470 MORE
0000154 QU
0000467 WHAT
0000142 AVEC
0000465 THEIR
0000135 SONT
0000438 ONE
0000123 C
0000418 PLAYER
0000122 NOUS
0000405 STRATEGY
0000104 CES
0000402 HAS
0000101 SON
0000378 THERE
0000101 CETTE
0000374 WHICH
0000098 JE
0000367 SOCIAL
0000095 BIEN
0000358 OTHER
0000094 AUX
0000338 ABOUT
0000091 MONDE
0000337 DO
0000090 GAMIFICATION
0000330 PLAY
0000088 TOUT
0000329 PEOPLE
0000084 MEME
0000328 ALL
0000084 ETRE
0000321 EACH
0000082 SI
0000319 STRATEGIES
0000080 POLITIQUE
0000310 USE
0000080 GAME
0000308 HOW
0000079 ONT
0000304 TIME
0000077 Y
0000304 PLAYERS
0000075 PEUT
0000295 WHEN
0000073 JOUEURS
0000293 THESE
0000072 FAIT

Tous les mots non surlignés en jaune étant considérés comme des mots vides, ils sont éliminés du tableau final, qui regroupe uniquement les termes jugés significatifs :


Cette première partie exploratoire étant achevée, les données doivent être interprétées pour aider à la prise de décision, en fonction des objectifs du client.

C) L’interprétation des données

Il ne s’agit pas ici de pratiquer la statistique inférentielle d’un point de vue scientifique, mais plutôt l’inférence statistique en prenant comme hypothèse simplificatrice le postulat suivant :

-         le haut du tableau rassemble les signaux forts émis par la « conversation sociale » ;
-         ensuite, plus l’on descend dans l’ordre des fréquences, plus se manifestent, en bas de tableau, les signaux faibles (loin d’être négligeables puisque ce sont eux qui, souvent, marquent les ruptures).

Pour autant, tous ces termes sont interreliés et forment un tout, ce qui est la définition d’un réseau notionnel : « système formé des termes majeurs permettant de décrire et de délimiter un domaine d’études ou d’activités ».

Source : Dictionnaire actuel de l’éducation, Renald Legendre, 2e édition, éd. Guérin,1993.

Autrement dit un « cadre conceptuel », où chaque concept « est à la fois une représentation mentale individuelle et l’acceptation sociale d’un mot » (Klausmeier et Sipple, 1980), et où ces mots mis en relation(s), définissent, organisent et symbolisent l’univers événementiel et social qui nous intéresse. Et qui intéresse surtout le client !

Une fois défini, ce réseau est visualisé sous forme de carte heuristique et/ou conceptuelle.

D) La visualisation des données

Le niveau plus simple de présentation des données pour les rendre aisément compréhensibles est celui du nuage sémantique, où les termes sont pondérés par leur nombre d’occurrences. Exemple avec gamification :

EN


FR


Un second niveau, plus fouillé, est celui de la carte heuristique (mind map), qui représente l’arborescence des liens hiérarchiques entre les différents concepts, ou de la carte conceptuelle (concept map), qui connecte sémantiquement les concepts du réseau notionnel entre eux, pour en dégager le sens.

L’étude et l’émergence du sens sont l’objet de la sémantique.

* * *

II. La sémantique

Si la statistique (le quantitatif) permet d’extraire les termes significatifs du corpus « événement », la sémantique (le qualitatif) approfondit les relations de sens entre ces termes et l’environnement dont ils proviennent, et elle le fait mot par mot !

Chaque mot indiquant le binôme signe/signifié, conformément à l’étymologie du terme-même de sémantique, dérivé du grec σημαντικός (semantikos), « signifié » lui-même formé à partir de σημαίνω (semaino), « signifier, indiquer » ou σήμα (SEMA), « signe, marque ».

Pour un discours, nous pourrions dire que la sémantique est à la syntaxe ce que le fond est à la forme du message exprimé.


Donc l’intérêt de la sémantique est de dépasser les solutions « social analytics » et les métriques traditionnelles, pour passer du réseau social (le quantitatif) au réseau notionnel (le qualitatif).

*

Actuellement, selon une étude Adobe publiée au dernier trimestre 2011, le premier critère absolu qu’utilisent 60% des entreprises pour mesurer l’impact des médias sociaux est le trafic qu’ils génèrent. Mais sans vraiment réussir à qualifier les éléments de ce trafic, et encore moins à conceptualiser ce qu’il y a derrière.

Un indicateur purement quantitatif que 3 marketers sur 4 en Europe considèrent largement insatisfaisant, double signe de solution de facilité d’une part, de difficulté à imaginer des alternatives fiables et opérables de l’autre. Et ce n’est pas simplement une question d’outils, comme le souligne fort justement Frédéric Cavazza :
Rien ne sert d’avoir l’outil le plus sophistiqué si vous n’avez pas la capacité de livrer aux décideurs une information à valeur ajoutée sur l’activité, le sentiment vis-à-vis de la marque ou des produits, la performance de vos actions et la rentabilité de vos investissements.
Qui ajoute : « l’important n’est pas le choix de l’outil, mais l’organisation mise en place pour interpréter les données et diffuser les enseignements. »

Or en matière d’organisation, cela semble plutôt la cacophonie généralisée. Selon Jeremiah Owyang, des programmes dédiés commencent tout juste à voir le jour en interne, mais sans stratégie de long terme bien définie :
Companies need to implement a proper training scheme for staff and work towards a ‘holistic’ approach where communications were consistent across different platforms.
Une lacune à combler pour la majorité des entreprises, pour lesquelles réseaux et médias sociaux demeurent encore de parfaits inconnus, même si la plupart conviennent de la nécessité d’y être.

Or la vraie question à laquelle elles doivent maintenant répondre (par une stratégie de long terme articulée, justement), ce n’est plus : « Doit-on y être ? », mais : « Pourquoi y être ? », et son corollaire : « Comment y être ? », en passant le plus vite possible d’une logique presque exclusivement quantitative (combien d’internautes parlent-ils de mes produits/services ?) à une approche qualitative à 360° : « que disent-ils de mes produits/services ? », et « en quoi leur opinion est-elle précieuse pour améliorer les interactions avec mon public ? ».

Donc pour retrouver la conversation sociale perdue et reconstituer le puzzle du dialogue, il faut d’abord remettre ensemble les mille bouts de phrases éparpillées sur le Web, sans quoi impossible d’avoir une vision cohérente du tout.

Mais deux études de cas illustreront notre propos mieux que mille explications ! Portant sur deux événements ayant eu une audience planétaire :

  • Le Web 2011


  • Davos 2012
Dix mille tweets dans les nuages…

L’analyse d’une dizaine de milliers de tweets sur l’édition Davos 2012 du World Economic Forum (source) a permis de dégager immédiatement les thèmes les plus abordés dans les messages, mais également les 1914 comptes TWT qui ont posté, plus 993 Hashtags et 1981 liens, dont 1890 twittés une seule fois et 91 retwittés au moins une fois (pour un total de 2175 liens).


Dans un deuxième temps, ces 91 liens plus fréquemment twittés, qui renvoient essentiellement vers des billets de blogs ou des articles de journaux, ont consenti la constitution d’un nouveau corpus réunissant plus de 50000 mots, dont j'ai extrait les thèmes plus traités, etc.



Au vu du nuage, on pourrait se demander pourquoi SYSTÈME(S) est-il le terme plus cité ? L'explication est dans la septième édition du rapport Global Risks 2012 (voir le site), dont la préface nous dit :
This report captures the input of risk leaders in thought and practice, including members of the World Economic Forum’s Global Agenda Councils. It is also underpinned by the support and guidance of all the partners of the Risk Response Network. Underlying all these risks are velocity, multiplicity, and interconnectivity – creating a global system where mastering complexities will be the foremost challenge. 
The more complex the system, the greater the risk of systemic breakdown, but also the greater the potential for opportunity. Together, we have the foresight and collaborative spirit to shape our global future and particularly the survival instinct to move from pure urgency-driven risk management to more collaborative efforts aimed at strengthening risk resilience to the benefit of global society.


* * *

En conclusion, prendre les données du cloud pour en former des corpus à la volée, dont l'on extrait ensuite, pour chaque corpus, un nuage sémantique (ou plusieurs), est une forme d'analyse permettant de franchir un premier pas important pour passer du réseau social au réseau notionnel, ou du graphe social au graphe notionnel, si vous préférez. Mais je crois qu'à l'avenir nous aurons de plus en plus d'occasions d'explorer la force du

Cloud²
Cloud Corpora   < -- >   Semantic Cloud

mardi 28 février 2012

Le hub de traduction automatique, par Microsoft

Blog de Translation 2.0 Translation 2.0 Search Engine Marketing & Branding for Translators Translation 2.0 di Jean-Marie Le Ray S.a.s. in English Translation 2.0 di Jean-Marie Le Ray S.a.s. in Italiano Translation 2.0 di Jean-Marie Le Ray S.a.s. en français @ Translation 2.0 di Jean-Marie Le Ray S.a.s. RSS Feed for Translation 2.0 Blog Translation 2.0 on Twitter Translation 2.0 on Facebook Jean-Marie Le Ray on LinkedIn Some Clouds on Wordle Some presentations on SlideShare Some video-sharing on YouTube

Voici une grosse, très grosse nouveauté dans le monde de la TA, la traduction automatique ! Une (r)évolution capable d'impacter en profondeur la profession de traducteur, de même que la traduction automatique a commencé à révolutionner la traduction depuis une décennie. Il s'agit du tout nouveau hub de TA signé Microsoft :

LES LANGUES À LA RENCONTRE DU MONDE !

Microsoft Translator Hub jette un pont entre langues, cultures et technologie



Mais écoutons ce qu'ils disent du service dans l'introduction de leur guide utilisateur :
Jusqu’à présent, la traduction automatique (TA) n’a été l’apanage que de quelques grands fournisseurs de services linguistiques. Par conséquent, le nombre de langues couvertes en TA est limité à moins de 100, alors que l’on compte aujourd’hui plus de 7 000 langues parlées dans le monde. Cela limite l’accès des locuteurs natifs aux bases de connaissances mondiales et favorise de plus en plus l’adoption de langues non indigènes, tout simplement car c’est ce que la technologie actuelle rend plus facilement disponible. 
Microsoft Translator Hub permettra donc aux entreprises et aux communautés de construire, former et déployer des systèmes personnalisés de traduction automatique en améliorant la qualité des traductions spécialisées, aussi bien pour les langues solidement établies que pour celles qu’aucun des principaux fournisseurs de services linguistiques n’assure encore. 
Motorisé par Windows Azure™, Microsoft Translator Hub est une extension de la plateforme et du service de traduction de Microsoft. 
Grâce à Microsoft Translator Hub, les entreprises pourront créer des traductions automatiques bâties sur mesure en fonction de leurs offres commerciales et de la terminologie « maison » qu’elles utilisent. De même, les communautés linguistiques pourront élaborer des systèmes de traduction pour faciliter l’accès à l’information globale de leurs membres, tout en ayant l’avantage de pouvoir mieux partager les connaissances locales d’une culture linguistique restreinte avec le reste du monde, afin d’assurer la vitalité de leurs langues à long terme, à l’intention des générations futures. 
Notre guide utilisateur vous accompagnera maintenant étape par étape, tout au long du processus de construction de votre système personnalisé de TA grâce à Microsoft Translator Hub, qui sera dorénavant désigné comme le « Hub ».
La procédure est extrêmement simple, il suffit de demander une invitation (le service est gratuit pour une utilisation "normale"), Microsoft vous demande juste de préciser quels sont vos objectifs. En outre, selon leur plaquette de présentation, ils précisent que pour les grosses quantités, le prix sera de 10$ par million de caractères, soit moitié moins que Google ! Donc pour vous donner une idée, si vous comparez ça avec les coûts en traduction professionnelle, pour une même quantité il faudrait compter grosso modo entre 16 000 et 20 000 €...

Poursuivons notre visite du système, en commençant par la création d'un projet :


Vous lui donnez un nom, une brève description, vous choisissez une langue source, une cible (Microsoft autorise pour l'instant le choix parmi ... 1462 langues !), le secteur et éventuellement quelque sous-secteur, puis vous cliquez "Create Project" pour vous retrouver sur une page autorisant le choix entre créer immédiatement le projet ou inviter quelqu'un d'autre pour y participer, et finalement arriver à la page suivante :


La création d'un moteur de traduction automatique suit généralement la procédure des 3T : Training, Tuning & Testing.

1. Training : il s'agit d'alimenter le moteur en lui fournissant des fichiers de segments sources et cibles alignés, pour qu'il puisse se "former". Une fois tous les fichiers bilingues chargés, il faut fournir en plus un corpus monolingue de documents "spécialisés" dans la langue de sortie (ex. si vous traduisez de l'anglais en français, le fichier monolingue devra être FR), pour que le moteur étudie la syntaxe propre à la langue, les idiotismes, etc.

2. Tuning : ce sont les réglages qu'effectue le moteur à partir de phrases "spécialisées", soit directement extraites du corpus, soit expressément fournies.

3. Testing : on teste le moteur sur la traduction de quelques phrases, auxquelles le système applique comme métrique de validation le score BLEU.

Comme vous le voyez dans la capture ci-dessus, vous pouvez cocher la case d'utilisation des modèles de TA Microsoft, auquel cas l'actuelle traduction automatique MSFT s'appliquera par défaut, et les données supplémentaires que vous fournirez au moteur ne lui serviront qu'à peaufiner ses résultats.

Sans cela, ou dans le cas de langues que la plateforme ne prend pas encore en charge, le moteur ne fonctionnera que sur les données que vous lui fournirez...

Ces données seront saisies aux formats TMX, TXT (encodage Unicode UTF-16 ou UTF-8), HTM/L, PDF ou DOCX. Et vu qu'on ne peut charger qu'un fichier à la fois, si vous en avez plusieurs, mieux vaut utiliser un format de compression classique (ZIP, GZ, TGZ), le hub fera le tri tout seul ensuite.


Il est important de noter que pour chaque fichier téléchargé, l'utilisateur s'engage à être le titulaire des droits sur le contenu, automatiquement transférés à Microsoft par le seul fait du téléchargement, qui pourra ensuite en faire ce que bon lui semble. Prudence, donc...

Quant au training, c'est une opération récursive à répéter autant de fois qu'on veut jusqu'à ce qu'on soit satisfait des résultats, en adaptant au fur et à mesure les données à charger.


Les seuils de segments alignés sont définis comme suit par Microsoft pour les différentes étapes :


Le nombre de segments minimum indiqué est de 10 000 pour le training, même si à moins de 40/50 000 le moteur pourra difficilement fonctionner. Toutefois, en règle générale, mieux vaut plusieurs centaines de milliers de segments, voire 1 000 000 et plus... 

Ceci dit, ce n'est pas qu'une question de quantité, c'est aussi et surtout un problème de qualité. Plus les fichiers en entrée seront "propres" et "pertinents" par rapport au secteur souhaité, plus le niveau qualitatif en sortie sera satisfaisant. Les deux sont étroitement liés, la qualité en sortie étant proportionnelle à la qualité en entrée.

Dans quelques semaines je ferai un billet sur les premiers résultats obtenus, mais en attendant vous pouvez consulter trois vidéos par Kristin Tolle, directrice du lab Research Connections de Microsoft :
  1. Getting started (pour commencer)
  2. Creating a new project
  3. Training
Enfin, un forum dédié sera à la disposition des utilisateurs du hub.

Dans l'attente de lire le communiqué officiel, un billet a été publié sur un blog de Microsoft, ainsi qu'un autre mettant l'accent sur "la traduction par tous et pour tous", en insistant sur l'utilité de l'outil pour la préservation des langues en danger :


Il sera également intéressant de voir comment Google réagira à la mise en ligne de ce service, avec lequel Microsoft prend sans aucun doute une longueur d'avance sur son rival dans le secteur de la traduction automatique...