Open Lexique : Une base de données lexicales libre, idéale pour construire ses listes de mots

Présentation de Open Lexique et de la base Lexique 3.55

À plusieurs reprises, nous avons évoqué l’intérêt de l’utilisation de la base de données Open Lexique pour construire les listes de mots que vous souhaitez travailler en séance.

Comme l’outil n’est pas forcément évident à prendre en main pour le néophyte, nous vous proposons aujourd’hui de découvrir l’utilisation de cet outil illustrée de quelques exemples pour la pratique clinique des orthophonistes.

Cette présentation ne se veut pas exhaustive de l’ensemble des possibilités offertes par Open Lexique. Nous nous attarderons surtout sur les possibilités de requêtes au sein de la base de données lexicales Lexique 3.55[1] qui permettent d’obtenir des listes de mots en fonction de certains paramètres linguistiques ou propriétés dans la base de données.

Lors que vous arrivez sur la page du moteur de recherche Open Lexique, vous pouvez effectuer une recherche :

  • de co-occurrences dans les corpus
  • par mots (pour connaître les différentes propriétés du mot)
  • par propriétés (pour trouver les mots répondant à certaines propriétés)

Dans notre cas, cela va être surtout la recherche par propriétés qui va nous intéresser.

Recherche par propriétés dans Open Lexique

Notamment la recherche dans la base Lexique 3.55. Comme vous pouvez le voir en bas à droite, vous pouvez sélectionner le nombre de champs pour formuler vos requêtes par propriété au sein de la base de données. Quatre champs sont généralement suffisants, mais si vous souhaitez effectuer plus de 4 requêtes croisées, vous pouvez modifier le nombre de champs de requête à cet endroit de la page.

Une fois que vous avez sélectionné la base de données Lexique 3.55 et que vous cliquez sur Recherche, vous arrivez sur la page suivante :

Recherche par propriétés dans Lexique 3.55

Pour pouvoir effectuer une recherche, il va vous falloir sélectionner une ou plusieurs requêtes en fonction des propriétés que vous avez sélectionnées. C’est pourquoi il convient de connaître les propriétés contenues dans la Lexique 3.55 et la formule des requêtes correspondantes :

  • la forme orthographique du mot (ortho) – requête : lexique3.ortho
  • la forme phonologique du mot (phon) – requête : lexique3.phon
  • le lemme du mot (lemme) – requête : lexique3.lemme
  • la catégorie grammaticale du mot (cgram) – requête : lexique3.cgram
  • le genre (genre) – requête : lexique3.genre
  • le nombre (nombre) – requête : lexique3.nombre
  • la fréquence du lemme selon le corpus de sous-titres, par million d’occurrences (freqlemfilms) – requête : lexique3.freqlemfilms
  • la fréquence du lemme selon le corpus de livres, par million d’occurrences (freqlemlivres) – requête : lexique3.freqlemlivres
  • la fréquence du mot selon le corpus de sous-titres, par million d’occurrences (freqfilms) – requête : lexique3.freqfilms
  • la fréquence du mot selon le corpus de livres, par million d’occurrences (freqlivres) – requête : lexique3.freqlivres
  • les modes, temps et personnes possibles pour les verbes (infover) – requête : lexique3.infover
  • le nombre d’homographes (nbhomogr) – requête : lexique3.nbhomogr
  • le nombre d’homophones (nbhomoph) – requête : lexique3.nbhomoph
  • le fait que le mot soit un lemme ou pas (islem) – requête : lexique3.islem
  • le nombre de lettres (nblettres) – requête : lexique3.nblettres
  • le nombre de phonèmes (nbphons) – requête : lexique3.nbphons
  • la structure orthographique en consonnes et voyelles (cvcv) – requête : lexique3.cvcv
  • la structure phonologique en consonnes et voyelles (p_cvcv) – requête : lexique3.p_cvcv
  • le nombre de voisins orthographiques (voisorth) – requête : lexique3.voisorth
  • le nombre de voisins phonologiques (voisphon) – requête : lexique3.voisphon
  • le point d’unicité orthographique (puorth) – requête : lexique3.puorth
  • le point d’unicité phonologique (puphon) – requête : lexique3.puphon
  • la forme phonologique syllabée (syll) – requête : lexique3.syll
  • le nombre de syllabes (nbsyll) – requête : lexique3.nbsyll
  • la structure phonologique syllabée (cv_cv) – requête : lexique3.cv_cv
  • la forme orthographique inversée (orthrenv) – requête : lexique3.orthrenv
  • la forme phonologique inversée (phonrenv) – requête : lexique3.phonrenv
  • la forme orthographique syllabée (orthosyll) – requête : lexique3.orthosyll

Pour faciliter la prise en main de la recherche dans la base de données lexicales, nous vous invitons à consulter les codes utilisés pour la transcription phonétique et pour les classes grammaticales.

Codes phonémiques (source : lexique.org)

Codes des catégories grammaticales (source : lexique.org)

Intérêts en orthophonie

Les possibilités offertes par cette base de données lexicales libre sont très nombreuses, tant pour le chercheur que pour le clinicien. Nous ne les détaillerons pas, car pour le moment, nous n’avons exploré qu’une infime partie des champs ouverts par l’utilisation de cet outil. Néanmoins, nous tenions à vous présenter quelques usages de cette base.

Exemple de recherche simple

Imaginons que dans le cadre d’une séance, vous souhaitez travailler avec des mots dont les propriétés seraient :

  • de commencer par les lettres CRA
  • d’être des noms
  • d’être relativement fréquents (supérieur à 3 millions d’occurrences) dans le langage oral (corpus sous-titres de film) au niveau du lemme

Pour y parvenir, vous devez sélectionner :

  • dans le premier menu déroulant destiné aux requêtes, la requête lexique3.ortho (elle est toujours proposée par défaut) en précisant dans le champ à droite le code : cra*
  • dans le deuxième menu déroulant, la requête lexique3.cgram en précisant dans le champ à droite le code : NOM
  • dans le troisième menu déroulant, la requête lexique3.freqlemfilms en précisant dans le champ à droit le code : >3

Exemple de recherche par propriétés

Une fois que vous avez entré vos requêtes, vous pouvez cliquer sur Rechercher et découvrir ainsi les résultats de votre recherche.

 

Résultats de la recherche

En cliquant sur l’image, vous pourrez accéder directement à la page des résultats et observer les différentes propriétés des mots de la liste.

Autres exemples

Dans le cadre de notre pratique, nous avons utilisé Open Lexique pour obtenir des listes de mots et concevoir des jeux sur certaines graphies, des entraînements de mémorisation de l’orthographe lexicale, des exercices de lectures flash en faisant varier le nombre de voisins orthographiques des mots présentés, etc.

Nous avons également eu connaissance d’une collègue qui a utilisé Open Lexique pour constituer sa base de mots dans le cadre de la progression et de la méthode d’entraînement métaphonologique proposé par Emmanuelle Métral.

Utiliser Open Lexique pour Frilexie (FriLogos)

Sauvegarde de la liste de mots sous Open Lexique

Dans la conception initiale du logiciel Frilexie, nous souhaitions intégrer la possibilité d’effectuer des requêtes dans la base de données lexicales Lexique 3.55 pour faciliter la sélection de liste de mots dans le cadre d’un entraînement des stratégies d’identification du mot écrit. À ce jour, l’intégration de la base de données n’a pas encore été effectuée au sein de Frilexie, mais il est quand même aisé d’exporter les listes de mots générées par Open Lexique pour les utiliser avec Frilexie.

Pour ce faire, une fois que vous avez entré vos requêtes dans les champs destinés à cet effet, sélectionnez dans le premier menu déroulant du cadre Afficher les champs le champs des mots qui répondent à vos critères. Pour l’utilisation avec Frilexie, ce sera notamment le champs lexique3.ortho.

Champs à compléter pour l'exportation d'une liste de mots vers Frilexie

Cliquez ensuite sur Rechercher et vous arrivez sur la page des résultats.

Page de résultats Open Lexique au format texte

Ensuite, en appuyant sur le bouton « Clic droit » de votre souris, ou allant dans le menu Fichier de votre navigateur internet, vous pouvez sélectionner Enregistrer sous.

Sauvegarder la liste de mots pour Frilexie au format texte

N’oubliez pas de sélectionner dans les options de format d’enregistrement (au-dessus du bouton Enregistrer) Fichiers texte (*.txt). Sinon vous risquez d’enregistrer la page au format html.

Attention : Pour pouvoir être lu par Frilexie, le fichier doit comporter l’extension .words à la place de .txt. Précisez l’extension .words lorsque vous entrez le nom de votre fichier lors de son enregistrement.

Vous pouvez ensuite éditer le fichier avec un simple logiciel Éditeur de texte (Bloc-note sous Windows ou Gedit sous Ubuntu) et effacer les premières lignes de texte du fichier qui présentent le nombre de mots trouvés pour le résultat de vos requêtes.

Importation de la liste de mots sous Frilexie

Pour utiliser la liste de mots avec le module Frilexie du logiciel FriLogos (téléchargementprésentation), il vous suffit, lorsque vous êtes sur le panneau de configuration du module Frilexie, de cliquer sur le bouton Fichiers de mots… et de sélectionner votre fichier avec l’extension .words dans le répertoire de votre disque dur où vous l’avez enregistré.

Importation d'une liste de mots sous Frilexie (FriLogos)

[1] New B., Pallier C., Ferrand L., Matos R. (2001) Une base de données lexicales du français contemporain sur internet : LEXIQUE, L’Année Psychologique, 101, 447-462, http://www.lexique.org

Documentation

http://www.lexique.org/docLexique.php

Tagged with: , , , , , , , , , ,
Publié dans Logiciels, logopédie, Matériel, Orthophonie
6 comments on “Open Lexique : Une base de données lexicales libre, idéale pour construire ses listes de mots
  1. lingunix dit :

    Bonjour, vous pouvez également utiliser les outils Unix pour exploiter la base de donnée Lexique3.txt :

    http://www.lingunix.org

    Ce site vous donne quelques exemples de scripts permettant de manipuler les données de cette base ou même d’un texte.

    Cordialement

    Viv

  2. Corine dit :

    Merci beaucoup de nous simplifier l’exploration et l’utilisation d’outils formidables!

  3. Cyrille Largillier dit :

    Merci Rémi pour ce tutoriel !

  4. […] invariables, comme ceux que nous vous proposons en exemple. Vous pouvez également recourir à la base lexicale Open Lexique pour effectuer des recherches de mots en fonction de certaines propriétés linguistiques du mot […]

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

La Framakey Dys : C’est grâce à Framasoft!

Entrer votre adresse e-mail pour vous inscrire a ce blog et recevoir les notifications des nouveaux articles par e-mail.

Rejoignez 1 183 autres abonnés

Catégories
Archives
Licence
Creative Commons License
Tous les créations du site sont mises à disposition sous un contrat Creative Commons.
%d blogueurs aiment cette page :