Translation 2.0: mars 2012

Cloud²

Cloud Corpora < - - > Semantic Cloud

Un sujet, un personnage, un événement, une société, une marque quelconque vous tient à cœur, or vous souhaiteriez savoir et mieux comprendre ce qui s’en dit sur le Web, mais pas seulement, à un moment donné. En parle-t-on ? En quels termes ? Pourquoi ? Pour qui ? Où ? Quand ? Comment la chose est-elle perçue ? etc.

Cela est désormais possible, et facilement réalisable : plus besoin de sondages coûteux, d’études de marché compliquées : la sémantique événementielle et sociale, grâce au traitement ponctuel de corpus, suffit pour obtenir des résultats d’une grande précision et pertinence !

Voyons comment.

Tout événement (à prendre au sens large : conférence, lancement d’un produit/service, perception d’une marque/une société/une personnalité, buzz négatif/positif, etc.) génère des situations, des circonstances et des contenus, et son propre discours pour les expliciter.

Sur le Web, ce discours, souvent qualifié de « conversation sociale », se crée plus ou moins spontanément autour d’un événement quelconque, une conversation globale à laquelle participent des interlocuteurs de toutes langues et cultures, tous pays et tous horizons, sur les principaux réseaux sociaux qui sont désormais les catalyseurs de cette conversation, beaucoup plus que la presse ou les médias traditionnels.

Aujourd’hui, il n’est plus d’événement qui n’ait sa propre déclinaison sur Facebook, Twitter, Google+, LinkedIn, etc., à travers des pages ou des comptes dédiés, et dont le message soit relayé à la puissanceⁿ via billets de blogs, articles de journaux, vidéos, infographies, photos, livres blancs et autres documents connexes, liens et commentaires, et ainsi de suite.

Or l’événementiel et le social ont en commun le discours, qui lie explicitement chaque événement à son environnement « communautaire » : tous les gens qui en parlent, en bien et/ou en moins bien, créent à chaque occasion un immense « corpus », malheureusement ignoré entre bruit (gigantesque brouhaha de messages dupliqués par dizaines ou centaines, voire milliers, sans que l’un n’apporte véritablement de valeur ajoutée à l’autre) et silence (le message ne parvient pas à ses destinataires « naturels », souvent découragés par le bruit…), et par conséquent inexploré la plupart du temps.

En tout cas presque jamais analysé, sauf à mettre en œuvre des moyens disproportionnés, et donc coûteux et hors de portée.

Il s’agit alors, en premier lieu, de reconstituer cette conversation pour en rendre le discours, homogène sur le fond (puisque focalisé sur l’événement et ses conséquences) mais hétérogène dans la forme (car éparpillé, protéiforme et multilingue), en le réunissant au sein de 1) un corpus cohérent, créé au cas par cas, que l’on pourra traiter à volonté pour dégager du sens d’un magma de données au départ disparates, ce qui est l’objet de 2) la sémantique.

I. Le corpus

II La sémantique

* * *

I. Le corpus

En linguistique de corpus traditionnelle, les caractéristiques essentielles à prendre en compte pour constituer un corpus significatif (qui a du sens, et qui fait sens), homogène et pertinent, sont :

la taille : impossible d’extraire des informations fiables à partir d’un corpus trop petit, il faut donc une taille critique minimale (qui peut varier énormément selon les finalités, si un corpus dépassant 54 millions de mots est parfois considéré de taille moyenne) ; (source)
le langage et le registre : généralement une seule langue et un seul registre (inutile de mélanger textes philosophiques et spécifications de moteurs de fusée, par exemple) ;
le temps couvert par les textes du corpus : trop de différences entre un texte médiéval et moderne, etc.

Source

Le but étant généralement d’analyser les usages attestés et diversifiés du langage.

En Web événementiel et social, outre les prérequis de l’homogénéité et de la pertinence, qui restent des invariants, seuls les critères de taille et de temps restent inchangés, car les informations collectées sont presque toujours en plusieurs langues, hypertextuelles (liens renvoyant vers de nouvelles sources) et peuvent couvrir différents domaines. Quant au temps, l’Internet grand public est trop jeune puisqu’il se compte tout juste en décennies, on préférera donc appliquer une notion de « fenêtre temporelle », définissable à chaque fois en fonction de l’échantillon « événement » considéré.

Ainsi, lorsqu’on étudie sur le Web un univers quelconque pour en dégager une nomenclature des concepts qui le caractérisent davantage, les deux premiers corpus d’analyse possibles sont :

Les noms de domaines
Les réseaux sociaux

Les noms de domaines

Le corpus existant est le fichier des .COM de Verisign, actualisé une fois toutes les 24 heures, qui totalisait en décembre 2011 pas loin de 100 millions de domaines, une base de données unique bien que partielle.

Prenons pour exemple le concept de « gamification » à travers une expérience réalisée le 3 janvier 2012 pour analyser tous les noms de domaine en .COM liés au jeu.

En interrogeant le fichier Verisign, on extrait d’abord tous les noms contenant la séquence GAM, en obtenant 440 212 noms, dont 82,58% (soit 363 519 noms) contiennent la séquence GAME (317 380 = 72,1%), et GAMI (46 139 = 10,48%), desquels on enlève tous ceux avec GAMING inside (36 152, soit 78,35% des *GAMI*), en retenant uniquement la séquence GAMIF (540 noms, soit 5,4%), puis en isolant *GAMIFI* (263 noms, dont 170 GAMIFICATION et 40 GAMIFIED), et *GAMIFY* (154 noms), afin d’obtenir un fichier d’analyse définitif de 417 noms en .COM.

Le raisonnement est le suivant : si vous souhaitez enregistrer « www.gamification.com », il est évident qu’il est pris. Or si nous avons 170 noms qui incluent le terme « gamification », cela signifie que les 169 autres noms utilisent en apposition un qualificatif, un substantif, un chiffre, etc. Idem pour « gamified.com » et « gamify.com », etc.

Et il est tout aussi évident que les qualificatifs ou les autres substantifs choisis en apposition au concept clé doivent être pertinents et en relation avec l’idée de gamification, donc une fois que vous éliminez les termes GAMIFICATION, GAMIFIED et GAMIFY de ce fichier, vous obtenez tous les termes connexes censés préciser le concept clé, qui caractérisent ainsi l’univers de la gamification.

Voici le nuage sémantique correspondant :

Un raisonnement duplicable à n’importe quel autre concept, même s’il n’est pas toujours possible de l’exploiter : c’est parfait avec des séquences comme *GAMIF*, extrêmement spécifiques, mais impossible à utiliser dès que vous passez à des termes génériques, très courants et polysémiques (imaginez LOVE !).

Pour autant, si cette première forme n’est pas toujours praticable, la seconde l’est.

Les réseaux sociaux

Le Web est un puits sans fond pour constituer à la volée autant de corpus sur autant de domaines qu’on veut. Il suffit de tracer un sujet sur Twitter, Facebook ou autre, pour avoir un flux permanent d’actus, de blogs, etc.

Quant aux principaux composants servant à former un corpus caractérisé a priori, homogène et pertinent, ce sont la qualité d’un côté, l’exhaustivité de l’autre, et l’équilibre au milieu en essayant de refléter toutes les opinions possibles, positives, négatives et neutres. Les billets et les articles largement commentés sont très utiles dans ce sens, car généralement les débats lancés en commentaires expriment cette pluralité de vues. Les rapports d’étude sont également précieux, en ce qu’ils présentent toujours les pour et les contre avant de conclure.

Ainsi, selon l’événement considéré, la taille du corpus peut varier entre 10 et 100 000 mots ou plus, dont l’on extrait les occurrences plus fréquentes.

Au sens strict, la fréquence désigne un nombre d’éléments par rapport à un ensemble plus large auxquels ils appartiennent. Cette fréquence peut s’exprimer en % ou en fraction de 1 (1 signifiant 100% de l’ensemble). Elle se calcule en divisant la donnée par le tout.

Source.

Pour ce qui nous concerne, c’est beaucoup plus simple : lorsque les gens mentionnent un événement, ils parlent le plus de ce qu’ils considèrent le plus important, autant en positif qu’en négatif. Donc en extrayant les termes plus utilisés, nous obtenons la quintessence du discours. CQFD !

Simple démarche statistique (empirique et non pas scientifique), qui comprend :

A) la collecte des données (définition de l’échantillon / création du corpus) ;

B) le traitement des données collectées (statistique exploratoire / analyse des données) ;

C) l’interprétation des données (statistique inférentielle / prise de décision) ;

D) la visualisation des données pour les rendre plus aisément compréhensibles (nuage sémantique / réseau notionnel).

Source.

La durée de l’événement, enfin, correspond à une fenêtre temporelle qui se décline en une fenêtre d’événement et en fenêtres de non-événement.

La fenêtre d’événement comprend trois périodes :

période pré-événement (en jours ou en semaines, jusqu’à un mois au plus),
période de l’événement lui-même (de 1 à quelques jours, une semaine au plus),
période de post-événement (en jours ou en semaines, jusqu’à un mois au plus).

ces valeurs n’étant données qu’à titre indicatif, puisque selon le type de découpage choisi, cela peut varier de quelques heures à l’infini…

Accessoirement les fenêtres de non-événement contiennent par exclusion toutes les autres périodes, généralement les mois et années qui ont précédé, voire suivi.

Source : le découpage temporel ci-dessus s’inspire du travail de M. Fouad Machrouh, du Laboratoire d’Analyse et de Prospective Economiques (LAPE) de l’Université de Limoges, sur la présentation d’un outil de prédiction des crises bancaires.

Tout corpus ainsi constitué (A), une fois traité (B), fournit la liste des termes qui le composent classés par fréquence, dont on élimine les mots vides et non significatifs pour se concentrer sur, disons les 100 premiers obtenus (ou 10, 20, 50, etc., selon les buts que l’on se propose), qu’il s’agit d’interpréter (C) et de présenter (D) ensuite sous forme de nuage sémantique et/ou de carte heuristique et/ou conceptuelle.

Pour donner une idée du pouvoir de « simples mots », dans les années 60, certaines études statistiques effectuées sur le lexique général du français (cf. P. Guiraud, 1959), établissaient que 100 mots bien choisis assuraient un taux de couverture d’environ 60%, 1 000 mots 85%, et 4 000 mots 97,5% du lexique (alors qu’il fallait au moins 40 000 mots pour couvrir les 2,5% restants).

Source.

Or l’on parle ici du lexique général de la langue, soit grosso modo 100 000 termes, dont 4% (4 000 mots) couvrent 97,5% de l’ensemble ! D’ailleurs ce seul bagage de quelque 4 000 vocables suffit à s’exprimer et à soutenir une conversation en français, et il en va de même dans pratiquement toutes les langues.

Autrement dit, si l’on rapporte ces pourcentages à des corpus beaucoup plus restreints et ciblés, il est évident que les 100 premiers mots (épurés des mots vides, des pronoms, des connecteurs, des chiffres, etc.) par fréquence statistique couvrent beaucoup plus que 60% de l’univers, dans une proportion difficile à quantifier avec précision, mais que nous pourrions qualifier comme taux de couverture particulièrement concentré et représentatif, dont la qualité et l’exhaustivité sont proportionnels à la qualité et l’exhaustivité du corpus constitué.

Quelques dizaines de mots suffisent ainsi à « qualifier » l’événement d’autant plus qu’ils se rapportent étroitement au réseau notionnel du domaine considéré, c’est-à-dire qu’ils sont interreliés et forment un tout, un cadre conceptuel permettant de décrire un système qui fait sens et dont le rapport entre les mots est une représentation de ce sens.

Poursuivons notre exemple précédent sur la « gamification », avec un corpus constitué à partir des réseaux sociaux.

A) La collecte des données

Pour définir l’échantillon servant à créer le corpus, il a suffi de tracer sur Twitter le terme « gamification » pour identifier une centaine de liens, ayant conduit à la formation de deux corpus (l’un en anglais, l’autre en français), formés d’études et de billets de blog rédigés par des experts du domaine.

Soit un total de 84 documents pour un corpus anglais de 138 356 termes, et 17 documents pour un corpus français de 41 391 termes, cette différence quantitative s’expliquant par le fait que, face à la profusion de documents en anglais, il est naturellement plus difficile de trouver des sources de qualité en FR.

B) Le traitement des données collectées

Une fois le fichier constitué, la table de fréquences des termes est établie par ordre décroissant (numérique), avec en haut de tableau ceux qui ont le plus grand nombre d’occurrences. Le classement par ordre croissant (alphabétique) sert à d’autres usages.

Voici la liste respective des 60 premières occurrences des deux corpus :

0006954 THE	0001952 DE
0004536 TO	0001072 LE
0004006 OF	0000984 A
0003534 AND	0000946 LA
0003506 A	0000911 DES
0002488 IN	0000844 LES
0002229 THAT	0000828 ET
0002186 IS	0000809 L
0001406 FOR	0000693 UN
0001337 IT	0000651 D
0001243 S	0000601 EN
0001207 GAME	0000564 JEU
0001109 THIS	0000540 EST
0001091 ARE	0000488 DU
0001074 AS	0000428 DANS
0000956 WE	0000418 UNE
0000925 WITH	0000394 QUE
0000901 ON	0000358 POUR
0000887 YOU	0000321 QUI
0000860 BE	0000319 JEUX
0000854 I	0000313 PAR
0000808 GAMIFICATION	0000278 SUR
0000758 GAMES	0000276 IL
0000739 CAN	0000254 PAS
0000647 OR	0000234 PLUS
0000626 AN	0000233 OU
0000624 HAVE	0000233 CE
0000592 BY	0000199 ON
0000585 THEY	0000198 AU
0000584 WILL	0000191 VIDEO
0000559 IF	0000186 COMME
0000553 NOT	0000184 SE
0000538 FROM	0000169 NE
0000536 BUT	0000163 N
0000515 YOUR	0000163 MAIS
0000496 AT	0000158 S
0000470 MORE	0000154 QU
0000467 WHAT	0000142 AVEC
0000465 THEIR	0000135 SONT
0000438 ONE	0000123 C
0000418 PLAYER	0000122 NOUS
0000405 STRATEGY	0000104 CES
0000402 HAS	0000101 SON
0000378 THERE	0000101 CETTE
0000374 WHICH	0000098 JE
0000367 SOCIAL	0000095 BIEN
0000358 OTHER	0000094 AUX
0000338 ABOUT	0000091 MONDE
0000337 DO	0000090 GAMIFICATION
0000330 PLAY	0000088 TOUT
0000329 PEOPLE	0000084 MEME
0000328 ALL	0000084 ETRE
0000321 EACH	0000082 SI
0000319 STRATEGIES	0000080 POLITIQUE
0000310 USE	0000080 GAME
0000308 HOW	0000079 ONT
0000304 TIME	0000077 Y
0000304 PLAYERS	0000075 PEUT
0000295 WHEN	0000073 JOUEURS
0000293 THESE	0000072 FAIT

Tous les mots non surlignés en jaune étant considérés comme des mots vides, ils sont éliminés du tableau final, qui regroupe uniquement les termes jugés significatifs :

Cette première partie exploratoire étant achevée, les données doivent être interprétées pour aider à la prise de décision, en fonction des objectifs du client.

C) L’interprétation des données

Il ne s’agit pas ici de pratiquer la statistique inférentielle d’un point de vue scientifique, mais plutôt l’inférence statistique en prenant comme hypothèse simplificatrice le postulat suivant :

- le haut du tableau rassemble les signaux forts émis par la « conversation sociale » ;

- ensuite, plus l’on descend dans l’ordre des fréquences, plus se manifestent, en bas de tableau, les signaux faibles (loin d’être négligeables puisque ce sont eux qui, souvent, marquent les ruptures).

Pour autant, tous ces termes sont interreliés et forment un tout, ce qui est la définition d’un réseau notionnel : « système formé des termes majeurs permettant de décrire et de délimiter un domaine d’études ou d’activités ».

Source : Dictionnaire actuel de l’éducation, Renald Legendre, 2^e édition, éd. Guérin,1993.

Autrement dit un « cadre conceptuel », où chaque concept « est à la fois une représentation mentale individuelle et l’acceptation sociale d’un mot » (Klausmeier et Sipple, 1980), et où ces mots mis en relation(s), définissent, organisent et symbolisent l’univers événementiel et social qui nous intéresse. Et qui intéresse surtout le client !

Une fois défini, ce réseau est visualisé sous forme de carte heuristique et/ou conceptuelle.

D) La visualisation des données

Le niveau plus simple de présentation des données pour les rendre aisément compréhensibles est celui du nuage sémantique, où les termes sont pondérés par leur nombre d’occurrences. Exemple avec gamification :

Un second niveau, plus fouillé, est celui de la carte heuristique (mind map), qui représente l’arborescence des liens hiérarchiques entre les différents concepts, ou de la carte conceptuelle (concept map), qui connecte sémantiquement les concepts du réseau notionnel entre eux, pour en dégager le sens.

L’étude et l’émergence du sens sont l’objet de la sémantique.

* * *

II. La sémantique

Si la statistique (le quantitatif) permet d’extraire les termes significatifs du corpus « événement », la sémantique (le qualitatif) approfondit les relations de sens entre ces termes et l’environnement dont ils proviennent, et elle le fait mot par mot !

Chaque mot indiquant le binôme signe/signifié, conformément à l’étymologie du terme-même de sémantique, dérivé du grec σημαντικός (semantikos), « signifié » lui-même formé à partir de σημαίνω (semaino), « signifier, indiquer » ou σήμα (SEMA), « signe, marque ».

Pour un discours, nous pourrions dire que la sémantique est à la syntaxe ce que le fond est à la forme du message exprimé.

Source.

Donc l’intérêt de la sémantique est de dépasser les solutions « social analytics » et les métriques traditionnelles, pour passer du réseau social (le quantitatif) au réseau notionnel (le qualitatif).

Actuellement, selon une étude Adobe publiée au dernier trimestre 2011, le premier critère absolu qu’utilisent 60% des entreprises pour mesurer l’impact des médias sociaux est le trafic qu’ils génèrent. Mais sans vraiment réussir à qualifier les éléments de ce trafic, et encore moins à conceptualiser ce qu’il y a derrière.

Un indicateur purement quantitatif que 3 marketers sur 4 en Europe considèrent largement insatisfaisant, double signe de solution de facilité d’une part, de difficulté à imaginer des alternatives fiables et opérables de l’autre. Et ce n’est pas simplement une question d’outils, comme le souligne fort justement Frédéric Cavazza :

Rien ne sert d’avoir l’outil le plus sophistiqué si vous n’avez pas la capacité de livrer aux décideurs une information à valeur ajoutée sur l’activité, le sentiment vis-à-vis de la marque ou des produits, la performance de vos actions et la rentabilité de vos investissements.

Qui ajoute : « l’important n’est pas le choix de l’outil, mais l’organisation mise en place pour interpréter les données et diffuser les enseignements. »

Or en matière d’organisation, cela semble plutôt la cacophonie généralisée. Selon Jeremiah Owyang, des programmes dédiés commencent tout juste à voir le jour en interne, mais sans stratégie de long terme bien définie :

Companies need to implement a proper training scheme for staff and work towards a ‘holistic’ approach where communications were consistent across different platforms.

Une lacune à combler pour la majorité des entreprises, pour lesquelles réseaux et médias sociaux demeurent encore de parfaits inconnus, même si la plupart conviennent de la nécessité d’y être.

Or la vraie question à laquelle elles doivent maintenant répondre (par une stratégie de long terme articulée, justement), ce n’est plus : « Doit-on y être ? », mais : « Pourquoi y être ? », et son corollaire : « Comment y être ? », en passant le plus vite possible d’une logique presque exclusivement quantitative (combien d’internautes parlent-ils de mes produits/services ?) à une approche qualitative à 360° : « que disent-ils de mes produits/services ? », et « en quoi leur opinion est-elle précieuse pour améliorer les interactions avec mon public ? ».

Donc pour retrouver la conversation sociale perdue et reconstituer le puzzle du dialogue, il faut d’abord remettre ensemble les mille bouts de phrases éparpillées sur le Web, sans quoi impossible d’avoir une vision cohérente du tout.

Mais deux études de cas illustreront notre propos mieux que mille explications ! Portant sur deux événements ayant eu une audience planétaire :

Le Web 2011

Cent mille conversations …perdues …puis retrouvées !

Davos 2012

Dix mille tweets dans les nuages…

L’analyse d’une dizaine de milliers de tweets sur l’édition Davos 2012 du World Economic Forum (source) a permis de dégager immédiatement les thèmes les plus abordés dans les messages, mais également les 1914 comptes TWT qui ont posté, plus 993 Hashtags et 1981 liens, dont 1890 twittés une seule fois et 91 retwittés au moins une fois (pour un total de 2175 liens).

Dans un deuxième temps, ces 91 liens plus fréquemment twittés, qui renvoient essentiellement vers des billets de blogs ou des articles de journaux, ont consenti la constitution d’un nouveau corpus réunissant plus de 50000 mots, dont j'ai extrait les thèmes plus traités, etc.

Au vu du nuage, on pourrait se demander pourquoi SYSTÈME(S) est-il le terme plus cité ? L'explication est dans la septième édition du rapport Global Risks 2012 (voir le site), dont la préface nous dit :

This report captures the input of risk leaders in thought and practice, including members of the World Economic Forum’s Global Agenda Councils. It is also underpinned by the support and guidance of all the partners of the Risk Response Network. Underlying all these risks are velocity, multiplicity, and interconnectivity – creating a global system where mastering complexities will be the foremost challenge.

The more complex the system, the greater the risk of systemic breakdown, but also the greater the potential for opportunity. Together, we have the foresight and collaborative spirit to shape our global future and particularly the survival instinct to move from pure urgency-driven risk management to more collaborative efforts aimed at strengthening risk resilience to the benefit of global society.

* * *

En conclusion, prendre les données du cloud pour en former des corpus à la volée, dont l'on extrait ensuite, pour chaque corpus, un nuage sémantique (ou plusieurs), est une forme d'analyse permettant de franchir un premier pas important pour passer du réseau social au réseau notionnel, ou du graphe social au graphe notionnel, si vous préférez. Mais je crois qu'à l'avenir nous aurons de plus en plus d'occasions d'explorer la force du

Cloud²

Cloud Corpora < -- > Semantic Cloud

Pages

mercredi 7 mars 2012

Sémantique événementielle et sociale