jeudi 2 mai 2013

La base de données terminologiques de Translation 2.0

Blog de Translation 2.0 Translation 2.0 Search Engine Marketing & Branding for Translators Translation 2.0 di Jean-Marie Le Ray S.a.s. in English Translation 2.0 di Jean-Marie Le Ray S.a.s. in Italiano Translation 2.0 di Jean-Marie Le Ray S.a.s. en français @ Translation 2.0 di Jean-Marie Le Ray S.a.s. RSS Feed for Translation 2.0 Blog Translation 2.0 on Twitter Translation 2.0 on Facebook Jean-Marie Le Ray on LinkedIn Some Clouds on Wordle Some presentations on SlideShare Some video-sharing on YouTube

Juste trois chiffres pour vous donner une idée de ce que représente la base de données terminologiques de Translation 2.0 : 
6,3 To de données texte, plus de 2,7 milliards de termes indexés,
disséminés sur plus de 79 millions de fichiers !

* * *

MàJ du 18 septembre 2013, un an après le transfert sur le NAS des fichiers de mes 17 disques durs (commencé le 08/09/2012), la base de données est sur le point d'atteindre 100 millions de documents et 3 milliards de termes indexés, soit plus de 7 To de données texte

* * *

Une évolution considérable depuis l'époque (en 2005) où j'annonçais sur mon site :
Depuis 1989, nous avons traduit plus de 10 millions de mots à l'aide d'une BANQUE DE DONNÉES TERMINOLOGIQUE TRILINGUE UNIQUE en son genre :
  • Sur support papier
    • 5 Encyclopédies
      • Anglais
        - Encyclopædia Britannica
        - Encyclopædia Americana
        Français
        - La grande Encyclopédie
        - L’Encyclopédie Universalis
        Italien
        - Enciclopedia Treccani
    • 500 dictionnaires techniques
    • 10 000 livres et revues techniques dans (presque) tous les domaines

  • Sur support informatique
    • des milliers de glossaires, lexiques, dictionnaires et autres 7 millions de fichiers indexés pour couvrir toute sorte de documentation technique : tout sur tout !  
    • 100 millions d'occurrences réparties sur une trentaine d'index pour retrouver en un clin d'œil le moindre terme dissimulé dans presque 1 Téraoctet de texte, grâce à dtSearch® : un moteur de recherche local extrêmement performant qui permet de récupérer aisément n'importe quelle info où qu'elle se trouve, et de mettre instantanément en évidence des résultats précis.
* * *

Le travail du traducteur consiste également à chercher, plusieurs fois par jour, tous les jours, de la terminologie et du contexte pertinent pour la traduction en cours. Internet est naturellement un gisement inépuisable de ressources en tous genres, une aide inégalée - et inégalable - dans son travail quotidien.

Laissez-moi vous raconter une anecdote à ce propos. Je me suis connecté à Internet pour la première fois en 1995, plus émerveillé qu'un enfant face à ce nouveau "jouet" que j'imaginais déjà plein de promesses, toutes tenues et même dépassées...

J'ai donc saisi dans le champ d'un moteur de recherche (allez savoir lequel, Google n'existait pas encore, peut-être Yahoo! mais je n'ai aucune certitude) le terme « glossary ». Retour en une fraction de seconde : plus de 300 000 résultats !!!

Je me suis immédiatement déconnecté. J'avais besoin de réfléchir. Mais il était bien clair qu'Internet traçait une évidente ligne de démarcation : être traducteur professionnel AVANT et APRÈS Internet n'aurait plus jamais été le même métier.

Donc, depuis 1995, voici 18 ans que j'effectue pratiquement tous les jours des recherches terminologiques ou de contexte sur le Web et que je sauvegarde systématiquement en local le fruit de mes interrogations. Pour un motif évident : sur le réseau les ressources vont et viennent, et il n'est pas dit que ce qui est disponible aujourd'hui le soit encore demain. Loin de là.

En parallèle, les ressources documentaires dont je disposais déjà sur ordinateur avant Internet se sont ajoutées à celles post-Internet, et je suis arrivé en septembre 2012 avec 17 disques durs, répartis sur 6 ordinateurs (dont 2 portables) rassemblant presque 7 To de données, et un problème énorme : face à cette avalanche de données dispersées, je n'étais plus capable de retrouver quoi que ce soit même en sachant que la ressource nécessaire était cachée quelque part sur un de mes disques.

Il était temps de changer de stratégie. Le 8 septembre j'ai commencé à répertorier systématiquement le contenu des disques, avant d'investir dans l'achat d'un NAS :
Un serveur de stockage en réseau, également appelé stockage en réseau NAS, ou plus simplement NAS (de l'anglais Network Attached Storage), ou encore boîtier de stockage en réseau, est un serveur de fichiers autonome, relié à un réseau dont la principale fonction est le stockage de données en un volume centralisé pour des clients réseau hétérogènes.
En fait c'est comme une extension de votre ordi, mais qui a le mérite unique de tout centraliser en un seul disque, transparent. La technologie que j'ai choisie est le Iomega® px6-300d Pro, qui me donne un espace disponible de presque 11 Téraoctets en RAID 6. Autrement dit, mes données restent sauvegardées même si 2 des 6 disques de 3 To chacun cassent en même temps !

Depuis le 8 sept. 2012 jusqu'à hier, 1er mai 2013, jour ou j'ai terminé d’indexer le NAS, il m'aura donc fallu 235 jours pour répertorier, copier et indexer 6,3 To de données texte provenant des 17 disques durs, et créer 12 index qui reprennent 28 répertoires indexables : 2 633 815 442 termes indexés, 74 179 045 fichiers et 79 071 documents non indexés (soit moins de 0,1% de la base) parce qu'ils sont cryptographiés, non accessibles ou non lisibles pour une raison quelconque.

[MàJ - 5 mai 2013 : ajoutés ce jour 102 663 851 termes et 4 913 613 fichiers]

* * *

En d'autres termes, 25 ans de travail réunis sur un même disque, interrogeable grâce à dtSearch, la Rolls-Royce des solutions d'indexation : un monstre de puissance, de vitesse et d'efficacité. Je vous le conseille vivement.

Une incroyable émotion ! La prochaine étape sera bien évidemment de mettre tout ça sur le cloud en parallèle à mon moteur de recherche, ce serait déjà possible mais il me faudra d'abord comprendre comment transférer rapidement ces 6,3 To de données sur un serveur distant. À suivre...


P.S. Et pour finir, j'ai interrogé la base en sélectionnant tous les index, sur le terme « glossary » (voir plus haut) : 90 436 occurrences ! Autant dire que j'ai désormais mon petit Internet perso à bout de clic…