Cloud²
Cloud
Corpora < - - > Semantic Cloud
Un sujet, un
personnage, un événement, une société, une marque quelconque vous tient à cœur,
or vous souhaiteriez savoir et mieux comprendre ce qui s’en dit sur le Web,
mais pas seulement, à un moment donné. En parle-t-on ? En quels
termes ? Pourquoi ? Pour qui ? Où ? Quand ? Comment la chose est-elle perçue ? etc.
Cela est
désormais possible, et facilement réalisable : plus besoin de sondages
coûteux, d’études de marché compliquées : la sémantique événementielle et sociale, grâce au traitement ponctuel
de corpus, suffit pour obtenir des résultats d’une grande précision et
pertinence !
Voyons comment.
Tout événement (à prendre au sens large : conférence, lancement
d’un produit/service, perception d’une marque/une société/une personnalité,
buzz négatif/positif, etc.) génère des
situations, des circonstances et des contenus, et son propre discours pour les
expliciter.
Sur le Web, ce
discours, souvent qualifié de « conversation
sociale », se crée plus ou moins spontanément autour d’un événement
quelconque, une conversation globale à laquelle participent des interlocuteurs
de toutes langues et cultures, tous pays et tous horizons, sur les principaux
réseaux sociaux qui sont désormais les catalyseurs de cette conversation,
beaucoup plus que la presse ou les médias traditionnels.
Aujourd’hui, il
n’est plus d’événement qui n’ait sa propre déclinaison sur Facebook, Twitter,
Google+, LinkedIn, etc., à travers des pages ou des comptes dédiés, et dont le
message soit relayé à la puissancen via billets de blogs, articles
de journaux, vidéos, infographies, photos, livres blancs et autres documents
connexes, liens et commentaires, et ainsi de suite.
Or l’événementiel
et le social ont en commun le discours,
qui lie explicitement chaque événement à son environnement
« communautaire » : tous les gens qui en parlent, en bien et/ou
en moins bien, créent à chaque occasion un immense « corpus »,
malheureusement ignoré entre bruit (gigantesque brouhaha de messages dupliqués
par dizaines ou centaines, voire milliers, sans que l’un n’apporte
véritablement de valeur ajoutée à l’autre) et silence (le message ne parvient
pas à ses destinataires « naturels », souvent découragés par le bruit…),
et par conséquent inexploré la plupart du temps.
En tout cas
presque jamais analysé, sauf à mettre en œuvre des moyens disproportionnés, et
donc coûteux et hors de portée.
Il s’agit alors,
en premier lieu, de reconstituer cette
conversation pour en rendre le discours, homogène sur le fond (puisque
focalisé sur l’événement et ses conséquences) mais hétérogène dans la forme
(car éparpillé, protéiforme et multilingue), en le réunissant au sein de 1) un corpus cohérent, créé au cas par cas,
que l’on pourra traiter à volonté pour dégager du sens d’un magma de données au départ disparates, ce qui est
l’objet de 2) la sémantique.
I. Le
corpus
II La
sémantique
* * *
I. Le
corpus
En linguistique
de corpus traditionnelle, les caractéristiques essentielles à prendre en compte
pour constituer un corpus significatif (qui a du sens, et qui fait sens),
homogène et pertinent, sont :
- la taille : impossible d’extraire des informations fiables à partir d’un corpus trop petit, il faut donc une taille critique minimale (qui peut varier énormément selon les finalités, si un corpus dépassant 54 millions de mots est parfois considéré de taille moyenne) ; (source)
- le langage et le registre : généralement une seule langue et un seul registre (inutile de mélanger textes philosophiques et spécifications de moteurs de fusée, par exemple) ;
- le temps couvert par les textes du corpus : trop de différences entre un texte médiéval et moderne, etc.
Le but étant
généralement d’analyser les usages attestés et diversifiés du langage.
En Web événementiel et social, outre les
prérequis de l’homogénéité et de la pertinence, qui restent des invariants,
seuls les critères de taille et de temps restent inchangés, car les
informations collectées sont presque toujours en plusieurs langues,
hypertextuelles (liens renvoyant vers de nouvelles sources) et peuvent couvrir
différents domaines. Quant au temps, l’Internet grand public est trop jeune
puisqu’il se compte tout juste en décennies, on préférera donc appliquer une
notion de « fenêtre temporelle », définissable à chaque fois en
fonction de l’échantillon « événement » considéré.
Ainsi, lorsqu’on
étudie sur le Web un univers quelconque pour en dégager une nomenclature des
concepts qui le caractérisent davantage, les deux premiers corpus d’analyse
possibles sont :
- Les noms de domaines
- Les réseaux sociaux
*
- Les noms de domaines
Le corpus
existant est le fichier des .COM de Verisign, actualisé une fois toutes les 24
heures, qui totalisait en décembre 2011 pas loin de 100 millions de domaines, une base de données unique bien que
partielle.
Prenons pour
exemple le concept de « gamification » à travers une expérience réalisée
le 3 janvier 2012 pour analyser tous les noms de domaine en .COM liés au jeu.
En interrogeant le
fichier Verisign, on extrait d’abord tous les noms contenant la séquence GAM,
en obtenant 440 212 noms, dont 82,58% (soit 363 519 noms) contiennent
la séquence GAME (317 380 = 72,1%), et GAMI (46 139 = 10,48%),
desquels on enlève tous ceux avec GAMING inside (36 152, soit 78,35% des
*GAMI*), en retenant uniquement la séquence GAMIF (540 noms, soit 5,4%), puis en
isolant *GAMIFI* (263 noms, dont 170 GAMIFICATION et 40 GAMIFIED), et *GAMIFY*
(154 noms), afin d’obtenir un fichier d’analyse définitif de 417 noms en .COM.
Le raisonnement
est le suivant : si vous souhaitez enregistrer « www.gamification.com »,
il est évident qu’il est pris. Or si nous avons 170 noms qui incluent le terme
« gamification », cela signifie que les 169 autres noms utilisent en
apposition un qualificatif, un substantif, un chiffre, etc. Idem pour « gamified.com »
et « gamify.com », etc.
Et il est tout
aussi évident que les qualificatifs ou les autres substantifs choisis en
apposition au concept clé doivent être pertinents et en relation avec l’idée de
gamification, donc une fois que vous éliminez les termes GAMIFICATION, GAMIFIED
et GAMIFY de ce fichier, vous obtenez tous
les termes connexes censés préciser le concept clé, qui caractérisent ainsi l’univers de la gamification.
Un raisonnement
duplicable à n’importe quel autre concept, même s’il n’est pas toujours
possible de l’exploiter : c’est parfait avec des séquences comme *GAMIF*,
extrêmement spécifiques, mais impossible à utiliser dès que vous passez à des
termes génériques, très courants et polysémiques (imaginez LOVE !).
Pour autant, si cette
première forme n’est pas toujours praticable, la seconde l’est.
- Les réseaux sociaux
Le Web est un
puits sans fond pour constituer à la volée autant de corpus sur autant de
domaines qu’on veut. Il suffit de tracer un sujet sur Twitter, Facebook ou
autre, pour avoir un flux permanent d’actus, de blogs, etc.
Quant aux principaux
composants servant à former un corpus caractérisé a priori, homogène et
pertinent, ce sont la qualité d’un côté, l’exhaustivité de l’autre, et l’équilibre
au milieu en essayant de refléter toutes les opinions possibles, positives,
négatives et neutres. Les billets et les articles largement commentés sont très
utiles dans ce sens, car généralement les débats lancés en commentaires
expriment cette pluralité de vues. Les rapports d’étude sont également
précieux, en ce qu’ils présentent toujours les pour et les contre avant de
conclure.
Ainsi, selon
l’événement considéré, la taille du corpus peut varier entre 10 et 100 000
mots ou plus, dont l’on extrait les occurrences plus fréquentes.
Au sens strict, la
fréquence désigne un nombre d’éléments par rapport à un ensemble plus large
auxquels ils appartiennent. Cette fréquence peut s’exprimer en % ou en fraction
de 1 (1 signifiant 100% de l’ensemble). Elle se calcule en divisant la donnée
par le tout.
Pour ce qui nous
concerne, c’est beaucoup plus simple : lorsque les gens mentionnent un
événement, ils parlent le plus de ce qu’ils
considèrent le plus important, autant en positif qu’en négatif. Donc en
extrayant les termes plus utilisés, nous obtenons la quintessence du discours. CQFD !
Simple démarche statistique
(empirique et non pas scientifique), qui comprend :
A)
la
collecte des données (définition de l’échantillon / création du corpus) ;
B)
le
traitement des données collectées (statistique exploratoire / analyse des
données) ;
C)
l’interprétation
des données (statistique inférentielle / prise de décision) ;
D)
la visualisation
des données pour les rendre plus aisément compréhensibles (nuage sémantique /
réseau notionnel).
La durée de l’événement, enfin, correspond
à une fenêtre temporelle qui se décline en une fenêtre d’événement et en
fenêtres de non-événement.
La fenêtre d’événement
comprend trois périodes :
- période pré-événement (en jours ou en
semaines, jusqu’à un mois au plus),
- période de l’événement lui-même (de 1
à quelques jours, une semaine au plus),
- période de post-événement (en jours
ou en semaines, jusqu’à un mois au plus).
ces valeurs
n’étant données qu’à titre indicatif, puisque selon le type de découpage
choisi, cela peut varier de quelques heures à l’infini…
Accessoirement
les fenêtres de non-événement contiennent par exclusion toutes les autres
périodes, généralement les mois et années qui ont précédé, voire suivi.
Source : le
découpage temporel ci-dessus s’inspire du travail de M. Fouad Machrouh, du Laboratoire
d’Analyse et de Prospective Economiques (LAPE) de l’Université de Limoges, sur
la présentation d’un outil de prédiction des crises bancaires.
*
Tout corpus ainsi constitué (A), une fois traité (B), fournit la liste des termes qui le composent classés par fréquence, dont on élimine les mots vides et non significatifs pour se concentrer sur, disons les 100 premiers obtenus (ou 10, 20, 50, etc., selon les buts que l’on se propose), qu’il s’agit d’interpréter (C) et de présenter (D) ensuite sous forme de nuage sémantique et/ou de carte heuristique et/ou conceptuelle.
Pour donner une
idée du pouvoir de « simples mots », dans les années 60, certaines
études statistiques effectuées sur le lexique général du français (cf. P.
Guiraud, 1959), établissaient que 100 mots bien choisis assuraient un taux de
couverture d’environ 60%, 1 000 mots 85%, et 4 000 mots 97,5% du
lexique (alors qu’il fallait au moins 40 000 mots pour couvrir les 2,5%
restants).
Or l’on parle ici
du lexique général de la langue, soit grosso modo 100 000 termes, dont
4% (4 000 mots) couvrent 97,5% de l’ensemble ! D’ailleurs ce seul
bagage de quelque 4 000 vocables suffit à s’exprimer et à soutenir une
conversation en français, et il en va de même dans pratiquement toutes les
langues.
Autrement dit, si
l’on rapporte ces pourcentages à des corpus beaucoup plus restreints et ciblés,
il est évident que les 100 premiers mots (épurés des mots vides, des pronoms,
des connecteurs, des chiffres, etc.) par fréquence statistique couvrent
beaucoup plus que 60% de l’univers, dans une proportion difficile à quantifier avec
précision, mais que nous pourrions qualifier comme taux de couverture particulièrement
concentré et représentatif, dont la
qualité et l’exhaustivité sont proportionnels à la qualité et l’exhaustivité du
corpus constitué.
Quelques dizaines
de mots suffisent ainsi à « qualifier » l’événement d’autant plus qu’ils
se rapportent étroitement au réseau notionnel du domaine considéré, c’est-à-dire
qu’ils sont interreliés et forment un
tout, un cadre conceptuel permettant de décrire un système qui fait sens et
dont le rapport entre les mots est une représentation de ce sens.
Poursuivons notre
exemple précédent sur la « gamification », avec un corpus constitué à
partir des réseaux sociaux.
A) La collecte des données
Pour définir l’échantillon
servant à créer le corpus, il a suffi de tracer sur Twitter le terme « gamification » pour identifier
une centaine de liens, ayant conduit à la formation de deux corpus (l’un en
anglais, l’autre en français), formés d’études et de billets de blog rédigés
par des experts du domaine.
Soit un total de
84 documents pour un corpus anglais de 138 356 termes, et 17 documents
pour un corpus français de 41 391 termes, cette différence quantitative
s’expliquant par le fait que, face à la profusion de documents en anglais, il
est naturellement plus difficile de trouver des sources de qualité en FR.
B) Le traitement des données
collectées
Une fois le
fichier constitué, la table de fréquences des termes est établie par ordre
décroissant (numérique), avec en haut de tableau ceux qui ont le plus grand
nombre d’occurrences. Le classement par ordre croissant (alphabétique) sert à
d’autres usages.
Voici la liste
respective des 60 premières occurrences des deux corpus :
0006954
THE
|
0001952 DE
|
0004536
TO
|
0001072 LE
|
0004006
OF
|
|
0003534
AND
|
0000946 LA
|
0000911 DES
|
|
0000844 LES
|
|
0002229
THAT
|
0000828 ET
|
0002186
IS
|
|
0001406
FOR
|
0000693 UN
|
0001337
IT
|
0000651 D
|
0001243 S
|
0000601 EN
|
0001207 GAME
|
0000564 JEU
|
0001109
THIS
|
0000540 EST
|
0001091
ARE
|
0000488 DU
|
0001074
AS
|
0000428 DANS
|
0000956
WE
|
0000418 UNE
|
0000925
WITH
|
0000394 QUE
|
0000901
ON
|
0000358 POUR
|
0000887
YOU
|
0000321 QUI
|
0000860
BE
|
0000319 JEUX
|
0000854 I
|
0000313 PAR
|
0000808 GAMIFICATION
|
0000278 SUR
|
0000758 GAMES
|
0000276 IL
|
0000739
CAN
|
0000254 PAS
|
0000647
OR
|
0000234 PLUS
|
0000626
AN
|
0000233 OU
|
0000624
HAVE
|
0000233 CE
|
0000592
BY
|
0000199 ON
|
0000585
THEY
|
0000198 AU
|
0000584
WILL
|
0000191 VIDEO
|
0000559
IF
|
0000186 COMME
|
0000553
NOT
|
0000184 SE
|
0000538
FROM
|
0000169 NE
|
0000536
BUT
|
0000163 N
|
0000515
YOUR
|
0000163 MAIS
|
0000496
AT
|
0000158 S
|
0000470
MORE
|
0000154 QU
|
0000467
WHAT
|
0000142 AVEC
|
0000465
THEIR
|
0000135 SONT
|
0000438
ONE
|
|
0000418 PLAYER
|
0000122 NOUS
|
0000405 STRATEGY
|
0000104 CES
|
0000402
HAS
|
0000101 SON
|
0000378
THERE
|
0000101 CETTE
|
0000374
WHICH
|
0000098 JE
|
0000367 SOCIAL
|
0000095 BIEN
|
0000358
OTHER
|
0000094 AUX
|
0000338
ABOUT
|
0000091 MONDE
|
0000337
DO
|
0000090 GAMIFICATION
|
0000330 PLAY
|
0000088 TOUT
|
0000329 PEOPLE
|
0000084 MEME
|
0000328
ALL
|
0000084 ETRE
|
0000321
EACH
|
0000082 SI
|
0000319 STRATEGIES
|
0000080 POLITIQUE
|
0000310
USE
|
0000080 GAME
|
0000308
HOW
|
0000079 ONT
|
0000304 TIME
|
0000077 Y
|
0000304 PLAYERS
|
0000075 PEUT
|
0000295
WHEN
|
0000073 JOUEURS
|
0000293
THESE
|
0000072 FAIT
|
Tous les mots non
surlignés en jaune étant considérés comme des mots vides, ils sont éliminés du
tableau final, qui regroupe uniquement les termes jugés significatifs :
Cette première
partie exploratoire étant achevée, les données doivent être interprétées pour
aider à la prise de décision, en fonction des objectifs du client.
C) L’interprétation des
données
Il ne s’agit pas
ici de pratiquer la statistique inférentielle d’un point de vue scientifique,
mais plutôt l’inférence statistique en prenant comme hypothèse simplificatrice
le postulat suivant :
-
le
haut du tableau rassemble les signaux forts émis par la « conversation
sociale » ;
-
ensuite,
plus l’on descend dans l’ordre des fréquences, plus se manifestent, en bas de
tableau, les signaux faibles (loin d’être négligeables puisque ce sont eux qui,
souvent, marquent les ruptures).
Pour autant, tous
ces termes sont interreliés et forment un tout, ce qui est la définition d’un réseau
notionnel : « système formé des
termes majeurs permettant de décrire et de délimiter un domaine d’études ou d’activités ».
Source : Dictionnaire
actuel de l’éducation, Renald Legendre, 2e édition, éd. Guérin,1993.
Autrement dit un
« cadre conceptuel », où chaque concept « est à la fois une représentation mentale individuelle et l’acceptation
sociale d’un mot » (Klausmeier et Sipple, 1980), et où ces mots mis en
relation(s), définissent, organisent et symbolisent l’univers événementiel et
social qui nous intéresse. Et qui intéresse surtout le client !
Une fois défini,
ce réseau est visualisé sous forme de carte heuristique et/ou conceptuelle.
D) La visualisation des
données
Le niveau plus
simple de présentation des données pour les rendre aisément compréhensibles est
celui du nuage sémantique, où les termes sont pondérés par leur nombre
d’occurrences. Exemple avec gamification :
EN
FR
Un second niveau,
plus fouillé, est celui de la carte heuristique (mind map), qui représente l’arborescence des liens hiérarchiques entre les différents
concepts, ou de la carte conceptuelle (concept
map), qui connecte sémantiquement
les concepts du réseau notionnel entre eux, pour en dégager le sens.
L’étude et
l’émergence du sens sont l’objet de la sémantique.
* * *
II. La sémantique
Si la statistique
(le quantitatif) permet d’extraire les termes significatifs du corpus
« événement », la sémantique (le qualitatif) approfondit les
relations de sens entre ces termes et l’environnement dont ils proviennent, et
elle le fait mot par mot !
Chaque mot
indiquant le binôme signe/signifié, conformément à l’étymologie du terme-même
de sémantique, dérivé du grec σημαντικός (semantikos), « signifié »
lui-même formé à partir de σημαίνω (semaino), « signifier, indiquer »
ou σήμα (SEMA), « signe, marque ».
Pour un discours,
nous pourrions dire que la sémantique est à la syntaxe ce que le fond est à la
forme du message exprimé.
Donc l’intérêt de
la sémantique est de dépasser les solutions « social analytics » et les
métriques traditionnelles, pour passer du réseau social (le quantitatif) au
réseau notionnel (le qualitatif).
*
Actuellement, selon
une étude Adobe publiée au dernier trimestre 2011, le premier critère absolu qu’utilisent
60% des entreprises pour mesurer l’impact des médias sociaux est le trafic
qu’ils génèrent. Mais sans vraiment réussir à qualifier les éléments de ce
trafic, et encore moins à conceptualiser ce qu’il y a derrière.
Un indicateur purement
quantitatif que 3 marketers sur 4 en Europe considèrent largement
insatisfaisant, double signe de solution de facilité d’une part, de difficulté
à imaginer des alternatives fiables et opérables de l’autre. Et ce n’est pas
simplement une question d’outils, comme le souligne fort justement Frédéric Cavazza :
Rien ne sert d’avoir l’outil le plus sophistiqué si vous n’avez pas la capacité de livrer aux décideurs une information à valeur ajoutée sur l’activité, le sentiment vis-à-vis de la marque ou des produits, la performance de vos actions et la rentabilité de vos investissements.
Qui ajoute : « l’important n’est pas le choix de l’outil,
mais l’organisation mise en place pour
interpréter les données et diffuser les enseignements. »
Or en matière d’organisation,
cela semble plutôt la cacophonie généralisée. Selon Jeremiah Owyang, des programmes dédiés commencent tout juste à voir le jour en interne,
mais sans stratégie de long terme bien définie :
Companies need to implement a proper training scheme for staff and work towards a ‘holistic’ approach where communications were consistent across different platforms.
Une lacune à
combler pour la majorité des entreprises, pour lesquelles réseaux et médias
sociaux demeurent encore de parfaits inconnus, même si la plupart conviennent
de la nécessité d’y être.
Or la vraie
question à laquelle elles doivent maintenant répondre (par une stratégie de long terme articulée, justement), ce n’est
plus : « Doit-on y être ? », mais : « Pourquoi y
être ? », et son corollaire : « Comment y
être ? », en passant le plus vite possible d’une logique
presque exclusivement quantitative (combien d’internautes parlent-ils de mes
produits/services ?) à une approche qualitative à 360° : « que
disent-ils de mes produits/services ? », et « en quoi leur
opinion est-elle précieuse pour améliorer les interactions avec mon
public ? ».
Donc pour
retrouver la conversation sociale perdue et reconstituer le puzzle du dialogue,
il faut d’abord remettre ensemble les mille bouts de phrases éparpillées sur le
Web, sans quoi impossible d’avoir une vision cohérente du tout.
Mais deux études
de cas illustreront notre propos mieux que mille explications ! Portant
sur deux événements
ayant eu une audience planétaire :
- Le Web 2011
- Davos 2012
Dix mille tweets dans les
nuages…
L’analyse d’une dizaine de milliers de tweets sur l’édition Davos 2012 du World Economic Forum (source) a permis de dégager immédiatement les thèmes les plus abordés dans les messages, mais également les 1914 comptes TWT qui ont posté, plus 993 Hashtags et 1981 liens, dont 1890 twittés une seule fois et 91 retwittés au moins une fois (pour un total de 2175 liens).
Dans un deuxième temps, ces 91 liens plus fréquemment twittés, qui renvoient essentiellement vers des billets de blogs ou des articles de journaux, ont consenti la constitution d’un nouveau corpus réunissant plus de 50000 mots, dont j'ai extrait les thèmes plus traités, etc.
Au vu du nuage, on pourrait se demander pourquoi SYSTÈME(S) est-il le terme plus cité ? L'explication est dans la septième édition du rapport Global Risks 2012 (voir le site), dont la préface nous dit :
This report captures the input of risk leaders in thought and practice, including members of the World Economic Forum’s Global Agenda Councils. It is also underpinned by the support and guidance of all the partners of the Risk Response Network. Underlying all these risks are velocity, multiplicity, and interconnectivity – creating a global system where mastering complexities will be the foremost challenge.
The more complex the system, the greater the risk of systemic breakdown, but also the greater the potential for opportunity. Together, we have the foresight and collaborative spirit to shape our global future and particularly the survival instinct to move from pure urgency-driven risk management to more collaborative efforts aimed at strengthening risk resilience to the benefit of global society.
Cloud²
Cloud Corpora < -- > Semantic Cloud
Aucun commentaire:
Enregistrer un commentaire