Lingunix : les outils UNIX appliqués à la recherche linguistique!

Présentation du projet

Bonjour à toutes et à tous, je suis très honoré de pouvoir présenter le projet lingunix.org sur orthophonielibre.wordpress.com .

Lingunix.org a pour vocation de développer des scripts Unix appliqués à la recherche en linguistique et en psycholinguistique. Ce projet est né suite à une recherche en psycholinguistique à laquelle j’ai participé à l’Université de Strasbourg en 2010.

Site Lingunix - les outils Unix appliqués la recherche en linguistique

Cette expérience fût réalisée selon le paradigme de Reicher (1969). Nous avions présenté aux sujets normaux lecteurs, en amorçage ( tps<60ms), un bigramme ou un trigramme suivi d’un masque (###) afin de contrer l’effet de la persistance rétinienne. Le sujet devait ensuite choisir la bonne réponse entre deux lettres proposées.

L’hypothèse de départ était la suivante : « la redondance orthographique a un effet sur la détection d’une lettre indépendamment de la prononciabilité du groupe de lettres dans laquelle elle se trouve. »

Je me suis rendu compte, en voyant le matériel expérimental utilisé, que les outils Unix avaient quelque chose à apporter dans la conception de ce genre de tests.

En effet, les commandes GREP, SED et AWK sont idéales pour manipuler et traiter des expressions régulières dans un flux de données.

On peut très facilement créer du matériel expérimental avec des commandes Unix (bigramme, trigramme, mots triés par fréquence d’occurrence, calcul du nombre de voisins orthographiques et phonologiques etc …).

Exemples d’applications

  • Manipuler des données avec AWK : Lire et exploiter des bases de données de type Lexique3.txt

Commande :

awk -F"\t" '$4~/VER/ {print $1,$3,$19,$20,$10}' Lexique3.txt | sort -t\ -k5nr | head -n10

Ce script Unix nous donne la liste des dix verbes les plus fréquemment employés dans la littérature française :

VERBE INFINITIF VOISIN ORTHO VOISIN PHONO FREQUENCE
dit dire 19 27 2601.62
fait faire 12 28 1459.26
été être 2 17 818.99
eu avoir 17 18 436.76
vu voir 14 24 393.45
pu pouvoir 18 25 349.32
devoir 9 24 243.65
voulu vouloir 3 9 174.19
passé passer 8 27 157.09
fini finir 4 5 149.26

La colonne 1 correspond au verbe tel qu’il a été rencontré dans la littérature, la colonne 2 à son infinitif, la colonne 3 à son nombre de voisins orthographiques, la colonne 4 à son nombre de voisins phonologiques, et la dernière colonne à la fréquence d’occurrence de ce verbe.

  • Création d’une base de données de type LEXIQUE à partir d’un texte :

cat texte.txt | sed "s/\W/\ /g" | sort | uniq | grep '^[a-z]' | grep '[a-z]$' > base.txt

Ce script va écrire dans une colonne la liste de tous les mots, présents dans le fichier texte.txt, triés par ordre alphabétique. L’avantage de ce script est qu’il élimine les doublons de mots. Après ce premier traitement, nous pouvons à partir de cette liste, faire par exemple des calculs de fréquences d’occurrences.

  • Génération d’un dictionnaire de trigramme :

Les dictionnaires de trigrammes sont souvent utilisés dans les tests psycholinguistiques expérimentaux fondés sur une tâche de décisions lexicales.

echo {a..z}{a..z}{a..z} > dictionnaire_trigramme.txt

Ce script va générer un dictionnaire de trigrammes présenté comme ci-après :

aaa aab aac aad aae aaf aag aah aai aaj aak aal aam aan aao aap aaq aar …

Objectifs du projet

L’objectif principal de lingunix.org est de défendre l’usage des outils Unix appliqués à la recherche en psycholinguistique et en linguistique. Plus précisément, je soutiens le développement de scripts écrits avec AWK (voir introduction à AWK pour les linguistes).

Au fil de l’avancement du projet, j’ai découvert d’autres utilités à l’analyse systématique du langage écrit s’inscrivant dans une dimension plus économique.

Pour vous donner un exemple concret, la fréquence d’occurrences d’un mot dans le langage est un paramètre qui entre en considération dans l’estimation de la valeur du nom de domaine d’un site web.

Il y a en réalité de nombreuses possibilités d’applications quand on maîtrise la manipulation de données de type LEXIQUE, tel que l’analyse de la densité de mots clés dans un texte pour le référencement, la prise en compte des voisins phonologiques pour le choix d’un nom de marque etc…

Je vous remercie de votre attention, et merci à Rémi SAMIER de m’avoir donné l’occasion de présenter mon projet sur orthophonielibre.wordpress.com.

Vivien SCHMITT http://www.lingunix.org

Tagged with: , , , , , , , , , , , , , , , ,
Publié dans Logiciels, logopédie, Matériel, Orthophonie
4 comments on “Lingunix : les outils UNIX appliqués à la recherche linguistique!
  1. Desidia dit :

    Même pour quelqu’un dont le domaine d’activité n’a rien à voir avec la linguistique, ce site regorge de renseignements bien utiles sur les fondamentaux du travail en ligne de commande. L’introduction àAWK est particulièrement bienvenue.

    Un grand merci.

    • rsam dit :

      Merci pour votre commentaire! Je l’ai transmis à Vivien du site Lingunix.

      Et bravo pour votre site qui est également une mine d’or!

      Bien cordialement,

      Rémi

  2. coullibali dit :

    peut on télécharger ce logiciel ou non? et merci

    • rsam dit :

      Les exemples présentés de manipulation de base de données sont réalisés via un terminal avec le langage bash. Les ordinateurs sous linux ou MacOS permettent d’accéder directement à un terminal. Pour windows, il convient d’installer le logiciel Undows : http://undows.lexique.org/

      Les bases de données sont ensuite téléchargeables à cette adresse pour réaliser les manipulations : http://www.lexique.org/telLexique.php

      Les bases fournies par Lexique.org contient également des scripts permettant d’effectuer certaines recherches psycholinguistiques.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

La Framakey Dys : C’est grâce à Framasoft!

Entrer votre adresse e-mail pour vous inscrire a ce blog et recevoir les notifications des nouveaux articles par e-mail.

Rejoignez 1 183 autres abonnés

Catégories
Archives
Licence
Creative Commons License
Tous les créations du site sont mises à disposition sous un contrat Creative Commons.
%d blogueurs aiment cette page :