À propos
Hello ! Je suis Yağmur, actuellement en dernière année de doctorat en TAL et ATER au laboratoire du CRIT à l'Université Marie & Louis Pasteur. Vous pouvez me contacter au yagmur.ozturk _at_ edu.univ-fcomte.fr pour toute question !
Domaines de recherche
Morphosémantique, analyse sémantique, formation des mots, morphologie dérivationnelle, modélisation linguistique, traitement automatique à base de règles linguistiques, ontologies
Projet de recherche
Analyse contrastive du langage juridique turc-français et applications en IA
Projet en collaboration franco-turque – en cours de mise en place (soumission à TÜBİTAK)
Je fais partie d’un projet portant sur l’analyse sémantique et traductologique du vocabulaire juridique en turc et en français. Le projet consiste à :
- extraire et analyser des termes juridiques issus de corpus spécialisés ;
- étudier leurs sens et leurs équivalents dans l’autre langue ;
- modéliser ces données dans une perspective de traduction assistée ;
- développer un jeu de données permettant l’entraînement de modèles d’IA appliqués à la traduction juridique.
Ce projet s’inscrit dans la continuité de mes travaux en morphosémantique et en modélisation linguistique.
Thèse
Modéliser la dérivation nominale du turc : de la formalisation linguistique à la représentation morphosémantique des connaissances
Directrices de thèse
- Izabella THOMAS, UFC
- Snejana GADJEVA, INALCO
Financement
Présidence des Turcs à l'étranger et des communautés liés (YTB)
Financement de YTB (ministère de la culture de Turquie), obtenu pour la période de novembre 2020 à novembre 2021.
https://www.ytb.gov.tr/en
Résumé de thèse
La morphologie dérivationnelle du turc présente une complexité remarquable : langue agglutinante, le turc permet l’enchaînement systématique de multiples suffixes pour construire le sens. Malgré la richesse de ce système, les sources existantes restent incohérentes dans leur traitement des morphèmes dérivationnels. Les inventaires, majoritairement organisés sous forme de listes, ne permettent ni d’identifier précisément les morphèmes dérivant des noms à partir de noms (N-to-N), ni de rendre compte des valeurs sémantiques qu’ils véhiculent.
Pour combler cette lacune, cette thèse s’attaque à un défi central : comment dépasser les inventaires de morphèmes existants pour passer d’une description à une modélisation morphosémantique formelle, exploitable en TAL ? Pour y répondre, nous proposons deux ressources interconnectées : DerivBaseTR, une base de données morphologique multidimensionnelle, et Semantürk, une ontologie sémantique dédiée à la dérivation en turc.
Nous commençons par croiser quinze sources hétérogènes (grammaires, travaux académiques et supports d’apprentissage) afin de constituer UNITuM, un inventaire unifié de 131 morphèmes traditionnellement classés comme N-to-N. Ces sources intégrant souvent des morphèmes d’autres catégories (p. ex. adjectivales), nous appliquons trois filtres systématiques fondés sur la catégorie grammaticale, la productivité et la transparence sémantique, aboutissant à une sélection de 36 morphèmes N-to-N.
Pour l’annotation sémantique, nous développons Semantürk en adaptant le cadre ontologique de Démonette-2 (Huguin et al., 2023) aux morphèmes du turc. Cette adaptation, guidée par des expériences d’évaluation, permet d’affiner les catégories sémantiques à partir des descriptions issues de UNITuM. Nous définissons ainsi 40 catégories sémantiques supplémentaires, intégrées à Démonette-2, et validées au moyen d’une expérience d’annotation sur un corpus de 100 noms dérivés.
Les résultats mettent en évidence la fiabilité de Semantürk : l’accord inter-annotateurs est élevé (Kα ≈ 0,83), et le niveau de confiance important (2,89/3), attestant du caractère interprétable et robuste des catégories. Conforme au standard OWL 2, Semantürk propose une ontologie hiérarchiquement structurée, permettant à la fois le raisonnement logique et l’annotation empirique. DerivBaseTR, structurée autour de quatre dimensions interconnectées (morphèmes, instanciations lexicales, annotations sémantiques, documentation), implémente ces 36 morphèmes et leurs annotations sémantique. Cette architecture multidimensionnelle dépasse l’organisation linéaire des sources traditionnelles et autorise des requêtes empiriques conduisant à l’extraction de résultats concrets. Une requête met ainsi en évidence une forte corrélation entre polysémie sémantique et productivité morphologique : les morphèmes associés à plusieurs catégories sémantiques présentent une productivité dérivationnelle plus élevée.
Ce travail interroge la place de la morphologie dérivationnelle entre lexique et syntaxe. Au-delà de la linguistique du turc, cette thèse propose des principes méthodologiques pour la création de ressources linguistiques durables et réutilisables, ouvrant des perspectives d’application allant de l’analyse automatique des morphèmes au traitement sémantique dans les langues à morphologie riche.
