2 nouvelles versions de Dicom : en Anglais et en Français

10 commentaires

Présentation

Dicom est un logiciel libre de prédiction de mots, développé par Gwénaëlle Marcou et Christophe Litzinger. Il est compatible sous windows.

Nous avons déjà eu l’occasion de présenter ce logiciel, notamment dans le cadre de son utilisation conjointe avec Open Office Vox (VoxOoFox) développé par Bertrand Lambard et David Lucardi.

Aujourd’hui, nous vous proposons deux nouvelles versions de Dicom pour lesquelles nous avons modifié les dictionnaires de mots.

Avec l’aimable autorisation de Boris New, auteur des bases de données lexicales Lexique 3.72 et SubtlexUS, nous avons pu extraire les formes orthographiques et leur fréquence pour constituer des dictionnaires de mots plus complets.

Nous vous proposons ces deux versions de Dicom dans un format qui permet leur intégration avec la Framakey.

Il suffit de décompresser l’archive zip que vous venez de télécharger, de copier le répertoire DicomLexiqueFrPortable et/ou DicomLexiqueEnPortable dans le répertoire /Apps de votre Framakey et de mettre à jour le menu Kiosk.

Téléchargement

La version de Dicom contenant le dictionnaire de mots anglais américains issus de SubtlexUS est téléchargeable à cette adresse :
http://files.framakey.org/contrib/main/apps/DicomLexiqueEnPortable_-en-r01.fmk.zip

La version de Dicom contenant le dictionnaire de mots français issus de Lexique3.72 est téléchargeable à cette adresse :
http://files.framakey.org/contrib/main/apps/DicomLexiqueFrPortable_-fr-r01.fmk.zip

Licence

Tout comme Dicom, ces deux variantes que nous avons nommées DicomLexiqueEn et DicomLexiqueFr, sont sous licence GNU GPL.

Remerciements

Nous remercions très chaleureusement Boris New pour son aide quant à la prise en main et à l’utilisation des bases de données lexicales, l’équipe de Framasoft qui nous permet aujourd’hui d’héberger les variantes des logiciels libres sur lesquelles nous travaillons, Bertrand Lambard, David Lucardi, Philippe Henaff et Thierry Danigo pour leur soutien.

Lingunix : les outils UNIX appliqués à la recherche linguistique!

4 commentaires

Présentation du projet

Bonjour à toutes et à tous, je suis très honoré de pouvoir présenter le projet lingunix.org sur orthophonielibre.wordpress.com .

Lingunix.org a pour vocation de développer des scripts Unix appliqués à la recherche en linguistique et en psycholinguistique. Ce projet est né suite à une recherche en psycholinguistique à laquelle j’ai participé à l’Université de Strasbourg en 2010.

Site Lingunix - les outils Unix appliqués la recherche en linguistique

Cette expérience fût réalisée selon le paradigme de Reicher (1969). Nous avions présenté aux sujets normaux lecteurs, en amorçage ( tps<60ms), un bigramme ou un trigramme suivi d’un masque (###) afin de contrer l’effet de la persistance rétinienne. Le sujet devait ensuite choisir la bonne réponse entre deux lettres proposées.

L’hypothèse de départ était la suivante : « la redondance orthographique a un effet sur la détection d’une lettre indépendamment de la prononciabilité du groupe de lettres dans laquelle elle se trouve. »

Je me suis rendu compte, en voyant le matériel expérimental utilisé, que les outils Unix avaient quelque chose à apporter dans la conception de ce genre de tests.

En effet, les commandes GREP, SED et AWK sont idéales pour manipuler et traiter des expressions régulières dans un flux de données.

On peut très facilement créer du matériel expérimental avec des commandes Unix (bigramme, trigramme, mots triés par fréquence d’occurrence, calcul du nombre de voisins orthographiques et phonologiques etc …).

Exemples d’applications

  • Manipuler des données avec AWK : Lire et exploiter des bases de données de type Lexique3.txt

Commande :

awk -F"\t" '$4~/VER/ {print $1,$3,$19,$20,$10}' Lexique3.txt | sort -t\ -k5nr | head -n10

Ce script Unix nous donne la liste des dix verbes les plus fréquemment employés dans la littérature française :

VERBE INFINITIF VOISIN ORTHO VOISIN PHONO FREQUENCE
dit dire 19 27 2601.62
fait faire 12 28 1459.26
été être 2 17 818.99
eu avoir 17 18 436.76
vu voir 14 24 393.45
pu pouvoir 18 25 349.32
devoir 9 24 243.65
voulu vouloir 3 9 174.19
passé passer 8 27 157.09
fini finir 4 5 149.26

La colonne 1 correspond au verbe tel qu’il a été rencontré dans la littérature, la colonne 2 à son infinitif, la colonne 3 à son nombre de voisins orthographiques, la colonne 4 à son nombre de voisins phonologiques, et la dernière colonne à la fréquence d’occurrence de ce verbe.

  • Création d’une base de données de type LEXIQUE à partir d’un texte :

cat texte.txt | sed "s/\W/\ /g" | sort | uniq | grep '^[a-z]' | grep '[a-z]$' > base.txt

Ce script va écrire dans une colonne la liste de tous les mots, présents dans le fichier texte.txt, triés par ordre alphabétique. L’avantage de ce script est qu’il élimine les doublons de mots. Après ce premier traitement, nous pouvons à partir de cette liste, faire par exemple des calculs de fréquences d’occurrences.

  • Génération d’un dictionnaire de trigramme :

Les dictionnaires de trigrammes sont souvent utilisés dans les tests psycholinguistiques expérimentaux fondés sur une tâche de décisions lexicales.

echo {a..z}{a..z}{a..z} > dictionnaire_trigramme.txt

Ce script va générer un dictionnaire de trigrammes présenté comme ci-après :

aaa aab aac aad aae aaf aag aah aai aaj aak aal aam aan aao aap aaq aar …

Objectifs du projet

L’objectif principal de lingunix.org est de défendre l’usage des outils Unix appliqués à la recherche en psycholinguistique et en linguistique. Plus précisément, je soutiens le développement de scripts écrits avec AWK (voir introduction à AWK pour les linguistes).

Au fil de l’avancement du projet, j’ai découvert d’autres utilités à l’analyse systématique du langage écrit s’inscrivant dans une dimension plus économique.

Pour vous donner un exemple concret, la fréquence d’occurrences d’un mot dans le langage est un paramètre qui entre en considération dans l’estimation de la valeur du nom de domaine d’un site web.

Il y a en réalité de nombreuses possibilités d’applications quand on maîtrise la manipulation de données de type LEXIQUE, tel que l’analyse de la densité de mots clés dans un texte pour le référencement, la prise en compte des voisins phonologiques pour le choix d’un nom de marque etc…

Je vous remercie de votre attention, et merci à Rémi SAMIER de m’avoir donné l’occasion de présenter mon projet sur orthophonielibre.wordpress.com.

Vivien SCHMITT http://www.lingunix.org

Open Lexique : Une base de données lexicales libre, idéale pour construire ses listes de mots

6 commentaires

Présentation de Open Lexique et de la base Lexique 3.55

À plusieurs reprises, nous avons évoqué l’intérêt de l’utilisation de la base de données Open Lexique pour construire les listes de mots que vous souhaitez travailler en séance.

Comme l’outil n’est pas forcément évident à prendre en main pour le néophyte, nous vous proposons aujourd’hui de découvrir l’utilisation de cet outil illustrée de quelques exemples pour la pratique clinique des orthophonistes.
Plus

Suivre

Recevez les nouvelles publications par mail.

Rejoignez 917 autres abonnés