Active learning techniques enhance the recognition of Arabic handwritten characters, focusing on strategies like Expected Model Change (EMC) and Variance Reduction. This report details the implementation of these methods, showcasing their effectiveness in improving model accuracy from 62.05% to 85.54% over multiple training cycles. It discusses the challenges faced with specific character classes and includes visualizations of learning curves and confusion matrices. Ideal for researchers and practitioners in machine learning and computer vision, this report provides insights into optimizing character recognition systems.

Key Points

  • Explains Expected Model Change (EMC) for selecting informative samples in Arabic handwriting recognition.
  • Details the implementation of Variance Reduction to stabilize model learning and improve accuracy.
  • Includes performance metrics showing accuracy improvements across multiple training cycles.
  • Analyzes challenges in recognizing specific Arabic characters and presents confusion matrix results.
Khamis Sirine
2 pages
Language:English
Type:Report
Khamis Sirine
2 pages
Language:English
Type:Report
114
/ 2
Rapport sur les techniques d’Active Learning pour la reconnaissance de caractères manuscrits arabes
Expected Model Change (EMC) 1.1. Principe L’Expected Model Change (EMC) consiste à
sélectionner les exemples dont l’ajout à l’ensemble d’apprentissage est susceptible de provoquer
le plus grand changement dans le modèle. Cette stratégie maximise l’effet informatif de chaque
annotation. Le calcul exact du changement attendu peut être coûteux. Il est donc approximé à
l’aide de :
La marge de décision : les points proches de la frontière sont les plus susceptibles de modifier le
modèle.
Lentropie : utilisée lorsque la marge n’est pas disponible, elle identifie les points où le modèle est
le plus incertain.
1.2. Implémentation Le processus EMC suit le schéma classique de l’Active Learning : - Initialisation : un
petit ensemble annoté (5 % du pool, soit 224 échantillons) est utilisé pour démarrer. - Entraînement du
modèle : un SVM à noyau RBF est entraîné sur l’ensemble annoté, avec calibrage des probabilités
lorsque le nombre d’échantillons par classe le permet. - Sélection des instances : les points les plus
informatifs sont choisis en fonction de la marge ou de l’entropie. - Mise à jour : les instances
sélectionnées sont ajoutées à l’ensemble annoté et retirées du pool non annoté, puis le modèle est
réentraîné.
1.3. Résultats - Précision : de 62,05 % à 85,18 % sur 15 cycles, évaluation finale à 85,54 %. - Certaines
classes (MiimI, HaI, Alifi, Dheli) présentent des F1-scores proches de 1, tandis que d’autres (Caafi, Faal,
Dadi) restent plus difficiles. - La matrice de confusion montre des erreurs entre caractères
morphologiquement proches.
1.4. Visualisation - La courbe d’apprentissage montre une progression régulière. - Confusions
principales : Caafi Kafi, Faal Dheli, Dadi Sadi.
1.5. Conclusion EMC maximise l’impact de chaque annotation, offrant de bonnes performances avec
peu d’exemples. Méthode plus coûteuse mais adaptée aux problèmes multi-classes.
Variance Reduction (Réduction de variance) 2.1. Principe Sélectionner les exemples qui réduisent
le plus l’incertitude du modèle pour stabiliser l’apprentissage.
2.2. Implémentation - Entraînement d’un SVM calibré. - Calcul de la variance de prédiction. - Sélection
des points avec variance élevée.
2.3. Résultats - Précision croissante à chaque cycle. - Les premières annotations ciblent les zones
difficiles. - Classes rares parfois moins représentées.
2.4. Conclusion La méthode stabilise le modèle, attention à l’équilibre des classes.
Density-Weighted Methods (Méthodes pondérées par la densité) 3.1. Principe Combine
incertitude et représentativité. Les points difficiles dans des zones denses sont privilégiés,
évitant les outliers.
3.2. Implémentation - Calcul incertitude et densité. - Score global = incertitude × densité. - Sélection des
points avec score élevé.
1.
2.
3.
1.
1.
1
3.3. Résultats - Apprentissage stable et progressif. - Meilleure distinction des classes proches
morphologiquement.
3.4. Conclusion Équilibre incertitude et représentativité, progression régulière.
Expected Error Reduction (Réduction d’erreur attendue) 4.1. Principe Anticipe l’impact de chaque
exemple sur la performance future et sélectionne ceux qui réduisent le plus l’erreur globale.
4.2. Implémentation - Approximation via probabilités prédites. - Estimation de l’effet attendu. - Sélection
des points informatifs.
4.3. Résultats - Précision croissante et régulière (~78 % en fin de cycles). - Points sélectionnés ayant un
impact significatif. - Erreurs concentrées sur caractères très similaires.
4.4. Conclusion Efficace pour améliorer rapidement la performance, plus coûteuse en calcul.
Conclusion générale
EMC : meilleure précision finale, adapté aux problèmes multi-classes.
Variance Reduction : stabilise le modèle, attention aux classes rares.
Density-Weighted : équilibre incertitude et représentativité.
Expected Error Reduction : réduit l’erreur globale, coût computationnel élevé. Globalement, ces
stratégies permettent de réduire le nombre d’exemples annotés tout en maintenant une
performance élevée pour les caractères arabes manuscrits.
1.
1.
2.
3.
4.
5.
2
/ 2
End of Document
114

FAQs

What is Expected Model Change (EMC) in active learning?
Expected Model Change (EMC) is a strategy in active learning that selects samples likely to cause the most significant change in the model when added to the training set. By focusing on instances near the decision boundary or those with high uncertainty, EMC maximizes the information gained from each annotation. This method is particularly effective in multi-class problems, as it allows for targeted improvements in model performance.
How does Variance Reduction improve model stability?
Variance Reduction is an active learning technique that selects samples to minimize the uncertainty in model predictions. By training on instances with high prediction variance, the model becomes more stable and reliable. This approach is crucial in scenarios where certain classes are underrepresented, ensuring that the model learns effectively across all character classes.
What are the main challenges in recognizing Arabic handwritten characters?
Recognizing Arabic handwritten characters presents unique challenges due to the morphological similarities between certain letters. For example, characters like Caafi and Kafi can be easily confused, leading to misclassification. The report highlights these challenges through confusion matrices and discusses strategies to mitigate errors, emphasizing the importance of targeted training on difficult character pairs.
What results were achieved through the active learning techniques discussed?
The implementation of active learning techniques led to a significant increase in model accuracy, improving from 62.05% to 85.54% over 15 training cycles. The report details specific F1-scores for various character classes, indicating that while some characters achieved near-perfect recognition, others remained challenging. These results underscore the effectiveness of active learning in enhancing character recognition systems.
What visualizations are included in the report?
The report includes visualizations such as learning curves that illustrate the model's performance over time and confusion matrices that highlight misclassifications between similar Arabic characters. These visual aids provide a clearer understanding of the model's strengths and weaknesses, making it easier to identify areas for improvement.