Le projet de recherche LexiKa : base de données lexicales en langues kanak est lauréat d’un financement (750.000xpf) de la part de la Fondation de l’Université de la Nouvelle-Calédonie (2021-2023).
C’est un projet interdisciplinaire novateur, porté par Anne-Laure Dotte (MCF en linguistique océanienne, ERALO-UNC) en collaboration avec Nazha Selmaoui-Folcher (Pr en sciences de l’informatique, ISEA-UNC). Son objectif est la création d’une base de données lexicales plurilingue, compilant les entrées lexicographiques de dictionnaires de langues kanak préexistants (publiés dans les années 1960-1980 et dactylographiés), récupérées grâce à une technique d’OCRisation (Optical Caracter Recognition) et une programmation d’identification des types de données (entrée en langue, traduction en français, exemples en langue et leur traduction, mots dérivés en langue, etc.) adaptée au format spécifique à chaque dictionnaire (dimensionnement par colonnes; érosion des caractères pour extraction de caractères en gras, etc). Une dizaine de dictionnaires et de langues kanak est ainsi visée.
Le projet ambitionne également de développer un site internet en version bêta pour accéder à cette base de données et pouvoir y faire des requêtes par mots-clés ou par expressions régulières.
Il est développé grâce au travaux d’étudiant.e.s de la Licence Informatique à l’UNC, dans le cadre de leurs projets tuteurés ou de leurs stages.