Encyclopédie Wikimonde

Lexico

Aller à : navigation, rechercher
Lexico
[[Fichier:Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value). |frameless |upright=1 |alt=Description de l'image Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).. ]]
[[Fichier:Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value). |frameless |upright=1 |alt=Description de cette image, également commentée ci-après ]]
Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Informations
Créateur Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Développé par Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Première version Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Dernière version Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Version avancée Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Dépôt Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Assurance qualité Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Écrit en Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Interface Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Supporte les langages Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Système d'exploitation Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Environnement Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Taille des données Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Formats lus Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Formats écrits Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Langues Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Type Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Licence Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Documentation Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).
Site web Erreur Lua dans Module:Wikidata à la ligne 768 : attempt to index field 'wikibase' (a nil value).

Chronologie des versions

Lexico est un logiciel d'analyse de données textuelles ou de statistique textuelle. Dans ses premiers développements, le logiciel s'appelait Lexicloud, avant de prendre le nom de Lexico, suivi du numéro de la version : Lexico1, Lexico2, Lexico3, Lexico5, etc. Il est actuellement toujours développé par le SYLED-CLA2T (Système linguistiques énonciation discursivité - Centre d'analyse automatique des textes) dont André Salem fait partie.

Il a d'abord été conçu à l'ENS Fontenay-Saint-Cloud, au sein de l'équipe Lexicométrie et textes politiques dirigée par Maurice Tournier et par le statisticien André Salem, alors ingénieur dans cette même équipe, avant d'être développé, toujours par André Salem, au sein du SYLED-CLA²T de l'université Sorbonne Nouvelle - Paris 3.

Lexico est un logiciel qui permet d'explorer des corpus de textes de plus ou moins grande taille. Toutefois, les méthodes s'avèrent plus pertinentes sur des corpus de grande taille : des corpus de plusieurs millions de mots ont été explorés et analysés à l'aide de Lexico3.

Caractéristiques du logiciel

Selon les méthodes de la statistique textuelle qu'André Salem a contribué à formaliser et à populariser, le corpus est d'abord découpé en parties (procédure de partition) et en mots (en fait en formes graphiques) (procédure de segmentation). Tous les mots sont décomptés et classés dans un tableau (tableau lexical entier ou TLE) où les lignes représentent chacun des mots présents dans le corpus et les colonnes chacune des parties du corpus. À l'intersection d'une ligne et d'une colonne apparaît un nombre indiquant la fréquence du mot (ligne) dans la partie (colonne). Le tableau synthétise donc le contenu lexical du corpus et de ses parties ainsi que la répartition de chacun des mots du corpus dans chacune des parties du corpus. Le logiciel permet alors la comparaison du vocabulaire de chacune des parties afin de déterminer quelles sont les parties les plus proches en fonction du vocabulaire qu'elles utilisent. La proximité des différentes parties du corpus entre elles est alors représentée sur un plan (méthode de l'analyse factorielle des correspondances). À partir de ces mêmes parties du corpus, le logiciel permet aussi de voir quels sont les mots (en fait les formes graphiques car les mots ne sont pas ramenés à leur racine [cf. lemmatisation]) caractéristiques (ou spécifiques) de chacune des parties par rapport au vocabulaire de l'ensemble du corpus.

Lexico3 crée ainsi les listes des spécificités, c'est-à-dire des mots statistiquement sur-utilisés par chacune des parties (méthodes des spécificités, qui permet aussi en creux de dresser la liste des spécificités négatives c'est-à-dire des mots sous-utilisés). De plus, à partir d'un mot préalablement choisi par l'utilisateur, Lexico3 permet aussi d'en observer la répartition des occurrences entre les différentes parties du corpus et d'en visualiser les évolutions dans son utilisation. Il permet aussi d'en calculer les associations spécifiques, c'est-à-dire les mots qui apparaissent plus fréquemment dans leur environnement lexical (phrase, paragraphe…) (méthodes des cooccurrences). Ces méthodes, parmi d'autres, font partie des modules statistiques de Lexico3. Le logiciel offre aussi des modules documentaires tels que les index hiérarchiques et alphabétiques des formes du corpus (la liste des mots du corpus classés par ordre de fréquence (ordre lexicométrique) ou par ordre alphabétique (ordre lexicographique), les concordances…

En résumé, Lexico3 permet d'explorer un corpus de textes à travers le vocabulaire que ce corpus mobilise puis de comparer ce corpus, préalablement découpé en parties, en fonction du vocabulaire de ses parties. La constitution du corpus, le découpage en parties, le choix des méthodes à appliquer et des mots à analyser répondent souvent à des hypothèses de recherches ou à des interrogations préalablement formulées par l'utilisateur. Les segmentations en parties peuvent ainsi être le fait de locuteurs ou de périodes et les interrogations peuvent alors respectivement porter sur le vocabulaire mobilisé, par exemple, par différentes personnalités ou partis politiques ou sur l'évolution des usages d'un mot dans un journal pendant une période donnée.

Le logiciel Lexico3, et plus généralement la statistique textuelle, sont issus de travaux en sciences du langage (analyse du discours, lexicologie, etc.) et en statistique (analyse de données, statistique multidimensionnelle, etc.). Lexico3 bénéficie des possibilités offertes, notamment en termes de puissance de calcul, par l'informatique. Plus largement, et dans le cadre des recherches en analyse du discours, l'analyse automatique du discours et la statistique textuelle ont bénéficié des réflexions de chercheurs de nombreuses disciplines des sciences humaines et sociales (psychologie politique, psychologie sociale, histoire, sociologie du langage… voir : analyse du discours). Aujourd'hui, Lexico3 et la statistique textuelle sont principalement utilisés par des historiens, des politologues et des linguistes et dans une moindre mesure par des psychologues, des sociologues et des littéraires.

Logiciels apparentés

  • Alceste (M. Reinert, Image, Toulouse)
  • Hyperbase (Étienne Brunet, UMR 7320, BCL, Nice)
  • Lexicométrie (D. Labbé, IEP, Grenoble)
  • Spad-t (L. Lebart et al., ENST, Paris,)
  • DTM (gratuit) (L. Lebart, ENST)
  • Sphynx Lexica

Voir aussi

Lien externe

Bibliographie

  • Jean-Paul Benzecri et al., Pratique de l'analyse des données, tome 3. Linguistique et Lexicologie, Paris, Dunod, 1981, 565 p.
  • Jean-Paul Benzecri, Histoire et préhistoire de l'analyse des données, Paris, Dunod, 1982.
  • Dominique Maingueneau, L’analyse de discours. Introduction aux lectures d’archives, Paris, Hachette, 1991.
  • Charles Muller, Principes et méthodes de statistique lexicale, Paris, Hachette, coll. « Hachette université. Langue, linguistique, communication », 1977, 205 p. (réédition Paris, Champion, coll. « Unichamps », 1992, 205 p.)
  • Ludovic Lebart et André Salem, Statistique textuelle, Paris, Dunod, 1994, 344 p.
  • André Salem, Pratique des segments répétés. Essai de statistique textuelle, Paris, Klincksieck, 1987.
  • Maurice Tournier, « Lexicométrie », dans Patrick Charaudeau et Dominique Maingueneau (dir.), Dictionnaire d’analyse des discours, Paris, Seuil, 2002, p. 342-345. (Dans ce même dictionnaire voir aussi : « Analyse du discours » (écrit par D. Maingueneau), « Analyse automatique du discours » (écrit par P. Marchand), « Cooccurrences », « Spécificités » (écrits par M. Tournier).)

Article publié sur Wikimonde Plus

Erreur Lua dans Module:Suivi_des_biographies à la ligne 197 : attempt to index field 'wikibase' (a nil value).