Faculté des Sciences Économiques et de Gestion de Nabeul
 
Utilisateur
Mot de passe

Archive des offres de stages et d'emplois

Offre N° FSEGN/ST/1-2012/10

Application de mesures de recherche d’information pour la désambigüisation lexicale automatique de la langue arabe.

Type de la mission
Stage
Durée
4 mois
Date de publication
25 janvier 2012
Date de clôture
25 mai 2012
Organisme d'accueil
Merhbene Laroussi
 
Objectifs de la mission

Réaliser un système informatique capable de mesurer la similarité entre une phrase et des contextes d’utilisation, afin de trouver le contexte le plus proche sémantiquement.

Fonctions et responsabilités

L’objet du stage est de réaliser un système informatique capable de mesurer la similarité entre une phrase et des contextes d’utilisation, afin de trouver le contexte le plus proche sémantiquement.

Les contextes d’utilisation sont des textes sous format XML, ayant une structure ordonnée. Les mesures appliquées sont des mesures statistiques basées sur le nombre d’occurrences des mots. Soit CC = m1 m2 … m m-1 … le contexte d’apparition du mot ambigu m. Supposons que S1, S2, .., Sk sont les sens possibles de m hors contexte.

Et que CU1, CU2, .., CUK sont les contextes d’utilisation possibles de m dans lesquels m a pour sens respectivement : S1, S2, …SK.

Pour déterminer le sens approprié de m dans le contexte CC, nous avons testé et appliqué les méthodes utilisées dans le domaine de la recherche d’information à savoir : Croft, Harman et Okapi. Toutes ces méthodes vont essayer de calculer la similarité entre le contexte courant CC d’occurrence du mot m, et les contextes d’utilisation possibles CU de m.

La formule suivante décrit la méthode utilisée, pour calculer le score de similarité entre deux contextes donnés:

St(CC, CU) = (iRC E(mi) + iLC E(mi)) / (iRC FE(mi) + iLC FE(mi)) (Equation 1)

Où, iRC E(mi) et iLC E(mi) sont respectivement les sommes de poids de tous les mots appartenant, en même temps, au contexte actuel CC et le contexte d’utilisation CU.

FE(mi), correspond au premier membre de E(mi), où E (mi) peut être remplacé par l'une des méthodes de recherche d'information : Croft, Harman ou Okapi dont les formules sont les suivantes :

Mesure de Harman :

H(m) = WH(m, CU(t)) = - log (n(m) / N)  [ log(nCU(m) + 1) / log(T(CU))] (Equation 2)

WH (m, C (t)) est le poids attribué à m dans le contexte d'utilisation CU du mot ambigu t par la mesure de Harman ; n (m) est le nombre de contextes d’utilisation de t contenant le mot m ; N est le nombre total des contextes d’utilisation de t ; ncu (m) est le nombre d’occurrence de m dans le contexte d’utilisation CU, et T (cu) est le nombre total de mots appartenant au contexte d’utilisation CU.

Mesure de Croft :

C (m) = WC(m, CU (t)) =

- log (n(m) / N)  [k + (1-k)  (nCU(m) / MaxxCU nCU(x))] (Equation 3)

Ou, WC(m, C(t)) est le poids attribué à m dans le contexte d’utilisation CU par la mesure de Croft; k est une constante qui détermine l’importance de la deuxième variables de l’équation de C(m) (ici, k = 0,5); et Maxxcu ncu(x) est le nombre maximal des occurrences du mots dans le contexte d’utilisation CU.

Mesure de Okapi :

O(m) = WO(m, CU(t)) =

log [(N - n(m) + 0,5) / n(m) + 0.5]  [nc(m) / (nCU(m) + (T(CU) / Tm(B)))] (Equation 4)

Ou, WO(m, C(t)) est le poids attribué à m dans le contexte d’utilisation CU de t par la mesure d’ Okapi, et Tm (B) est la moyenne de la longueur des contextes d’utilisation.

La dernière partie de ce travail proposé consiste à appliquer l’algorithme de Lesk, les sens proposé par les mesures de similarité sont utilisé comme entrée pour cet algorithme. L'algorithme de Lesk est basé sur l'hypothèse que les mots qui ont tendance à apparaître ensemble ont plus de chance à partager un sujet commun. Une mise en œuvre naïve de l’algorithme de lesk serait :

1. Le choix des paires de mots ambigus.

2. Les contrôles de leur définition d’après les différents contextes d’utilisation contenant les différents correspondants obtenus par l'application des méthodes de recherche d'information.

3. Sélection du sens qui permet de maximiser le nombre de termes communs dans les définitions des mots choisis.

Profil et qualités requises

• Connaissances approfondies en Système de gestion de base de données.

• Maitrise de l’outil Visual Basic.Net ou Java.

• Peu de connaissance sur la langue arabe.

Personne à contacter
Laroussi Merhbene

Activités culturelles