Organigramme

Concours mastères

Actualités

Archive des actualités

Bibliothèque

Présentation

Règlement interne

Accès document administratif

Résultats des Examens

Corrections des Examens

Contactez Nous

Aide Psychologique

4C FSEGN

Activitées culturelles et sportives

Association Culturelle

Formulaire

Mastères

Mastère professionnel co-construit IQ

MR Marketing

MP Ing Eco Financière

MP Marketing Touristique

MP Ing Syst Info Conn

MP Exp Compt Fiscales

MR MFB

MR Fin Ese et des Marchés

MR Business Computing

MP Logistique Com Inter

LF Gestion - Marketing

Archive des offres de stages et d'emplois

Offre N° FSEGN/ST/1-2012/10

Application de mesures de recherche d’information pour la désambigüisation lexicale automatique de la langue arabe.

Type de la mission

Stage

Durée

4 mois

Date de publication

25 janvier 2012

Date de clôture

25 mai 2012

Organisme d'accueil

Merhbene Laroussi

http://

Objectifs de la mission

Réaliser un système informatique capable de mesurer la similarité entre une phrase et des contextes d’utilisation, afin de trouver le contexte le plus proche sémantiquement.

Fonctions et responsabilités

L’objet du stage est de réaliser un système informatique capable de mesurer la similarité entre une phrase et des contextes d’utilisation, afin de trouver le contexte le plus proche sémantiquement.

Les contextes d’utilisation sont des textes sous format XML, ayant une structure ordonnée. Les mesures appliquées sont des mesures statistiques basées sur le nombre d’occurrences des mots. Soit CC = m1 m2 … m m-1 … le contexte d’apparition du mot ambigu m. Supposons que S1, S2, .., Sk sont les sens possibles de m hors contexte.

Et que CU1, CU2, .., CUK sont les contextes d’utilisation possibles de m dans lesquels m a pour sens respectivement : S1, S2, …SK.

Pour déterminer le sens approprié de m dans le contexte CC, nous avons testé et appliqué les méthodes utilisées dans le domaine de la recherche d’information à savoir : Croft, Harman et Okapi. Toutes ces méthodes vont essayer de calculer la similarité entre le contexte courant CC d’occurrence du mot m, et les contextes d’utilisation possibles CU de m.

La formule suivante décrit la méthode utilisée, pour calculer le score de similarité entre deux contextes donnés:

St(CC, CU) = (iRC E(mi) + iLC E(mi)) / (iRC FE(mi) + iLC FE(mi)) (Equation 1)

Où, iRC E(mi) et iLC E(mi) sont respectivement les sommes de poids de tous les mots appartenant, en même temps, au contexte actuel CC et le contexte d’utilisation CU.

FE(mi), correspond au premier membre de E(mi), où E (mi) peut être remplacé par l'une des méthodes de recherche d'information : Croft, Harman ou Okapi dont les formules sont les suivantes :

Mesure de Harman :

H(m) = WH(m, CU(t)) = - log (n(m) / N)  [ log(nCU(m) + 1) / log(T(CU))] (Equation 2)

WH (m, C (t)) est le poids attribué à m dans le contexte d'utilisation CU du mot ambigu t par la mesure de Harman ; n (m) est le nombre de contextes d’utilisation de t contenant le mot m ; N est le nombre total des contextes d’utilisation de t ; ncu (m) est le nombre d’occurrence de m dans le contexte d’utilisation CU, et T (cu) est le nombre total de mots appartenant au contexte d’utilisation CU.

Mesure de Croft :

C (m) = WC(m, CU (t)) =

- log (n(m) / N)  [k + (1-k)  (nCU(m) / MaxxCU nCU(x))] (Equation 3)

Ou, WC(m, C(t)) est le poids attribué à m dans le contexte d’utilisation CU par la mesure de Croft; k est une constante qui détermine l’importance de la deuxième variables de l’équation de C(m) (ici, k = 0,5); et Maxxcu ncu(x) est le nombre maximal des occurrences du mots dans le contexte d’utilisation CU.

Mesure de Okapi :

O(m) = WO(m, CU(t)) =

log [(N - n(m) + 0,5) / n(m) + 0.5]  [nc(m) / (nCU(m) + (T(CU) / Tm(B)))] (Equation 4)

Ou, WO(m, C(t)) est le poids attribué à m dans le contexte d’utilisation CU de t par la mesure d’ Okapi, et Tm (B) est la moyenne de la longueur des contextes d’utilisation.

La dernière partie de ce travail proposé consiste à appliquer l’algorithme de Lesk, les sens proposé par les mesures de similarité sont utilisé comme entrée pour cet algorithme. L'algorithme de Lesk est basé sur l'hypothèse que les mots qui ont tendance à apparaître ensemble ont plus de chance à partager un sujet commun. Une mise en œuvre naïve de l’algorithme de lesk serait :

1. Le choix des paires de mots ambigus.

2. Les contrôles de leur définition d’après les différents contextes d’utilisation contenant les différents correspondants obtenus par l'application des méthodes de recherche d'information.

3. Sélection du sens qui permet de maximiser le nombre de termes communs dans les définitions des mots choisis.

Profil et qualités requises

• Connaissances approfondies en Système de gestion de base de données.

• Maitrise de l’outil Visual Basic.Net ou Java.

• Peu de connaissance sur la langue arabe.

Personne à contacter

Laroussi Merhbene

Courriel

aroussi_merhben@hotmail.com

Archive des offres de stages et d'emplois

Offre N° FSEGN/ST/1-2012/10

Application de mesures de recherche d’information pour la désambigüisation lexicale automatique de la langue arabe.

Nos diplômes

Archive des actualités

Activités culturelles