Active Learning Techniques for Arabic Handwriting Recognitio

Active learning techniques enhance the recognition of Arabic handwritten characters, focusing on strategies like Expected Model Change (EMC) and Variance Reduction. This report details the implementation of these methods, showcasing their effectiveness in improving model accuracy from 62.05% to 85.54% over multiple training cycles. It discusses the challenges faced with specific character classes and includes visualizations of learning curves and confusion matrices. Ideal for researchers and practitioners in machine learning and computer vision, this report provides insights into optimizing character recognition systems.

Key Points

Explains Expected Model Change (EMC) for selecting informative samples in Arabic handwriting recognition.
Details the implementation of Variance Reduction to stabilize model learning and improve accuracy.
Includes performance metrics showing accuracy improvements across multiple training cycles.
Analyzes challenges in recognizing specific Arabic characters and presents confusion matrix results.

Khamis Sirine

2 pages

Language:English

Type:Report

Accounting

Khamis Sirine

2 pages

Language:English

Type:Report

Accounting

114

Rapport sur les techniques d’Active Learning pour la reconnaissance de caractères manuscrits arabes

Expected Model Change (EMC) 1.1. Principe L’Expected Model Change (EMC) consiste à

sélectionner les exemples dont l’ajout à l’ensemble d’apprentissage est susceptible de provoquer

le plus grand changement dans le modèle. Cette stratégie maximise l’effet informatif de chaque

annotation. Le calcul exact du changement attendu peut être coûteux. Il est donc approximé à

l’aide de :

La marge de décision : les points proches de la frontière sont les plus susceptibles de modifier le

modèle.

L’entropie : utilisée lorsque la marge n’est pas disponible, elle identifie les points où le modèle est

le plus incertain.

1.2. Implémentation Le processus EMC suit le schéma classique de l’Active Learning : - Initialisation : un

petit ensemble annoté (5 % du pool, soit 224 échantillons) est utilisé pour démarrer. - Entraînement du

modèle : un SVM à noyau RBF est entraîné sur l’ensemble annoté, avec calibrage des probabilités

lorsque le nombre d’échantillons par classe le permet. - Sélection des instances : les points les plus

informatifs sont choisis en fonction de la marge ou de l’entropie. - Mise à jour : les instances

sélectionnées sont ajoutées à l’ensemble annoté et retirées du pool non annoté, puis le modèle est

réentraîné.

1.3. Résultats - Précision : de 62,05 % à 85,18 % sur 15 cycles, évaluation finale à 85,54 %. - Certaines

classes (MiimI, HaI, Alifi, Dheli) présentent des F1-scores proches de 1, tandis que d’autres (Caafi, Faal,

Dadi) restent plus difficiles. - La matrice de confusion montre des erreurs entre caractères

morphologiquement proches.

1.4. Visualisation - La courbe d’apprentissage montre une progression régulière. - Confusions

principales : Caafi ↔ Kafi, Faal ↔ Dheli, Dadi ↔ Sadi.

1.5. Conclusion EMC maximise l’impact de chaque annotation, offrant de bonnes performances avec

peu d’exemples. Méthode plus coûteuse mais adaptée aux problèmes multi-classes.

Variance Reduction (Réduction de variance) 2.1. Principe Sélectionner les exemples qui réduisent

le plus l’incertitude du modèle pour stabiliser l’apprentissage.

2.2. Implémentation - Entraînement d’un SVM calibré. - Calcul de la variance de prédiction. - Sélection

des points avec variance élevée.

2.3. Résultats - Précision croissante à chaque cycle. - Les premières annotations ciblent les zones

difficiles. - Classes rares parfois moins représentées.

2.4. Conclusion La méthode stabilise le modèle, attention à l’équilibre des classes.

Density-Weighted Methods (Méthodes pondérées par la densité) 3.1. Principe Combine

incertitude et représentativité. Les points difficiles dans des zones denses sont privilégiés,

évitant les outliers.

3.2. Implémentation - Calcul incertitude et densité. - Score global = incertitude × densité. - Sélection des

points avec score élevé.

3.3. Résultats - Apprentissage stable et progressif. - Meilleure distinction des classes proches

morphologiquement.

3.4. Conclusion Équilibre incertitude et représentativité, progression régulière.

Expected Error Reduction (Réduction d’erreur attendue) 4.1. Principe Anticipe l’impact de chaque

exemple sur la performance future et sélectionne ceux qui réduisent le plus l’erreur globale.

4.2. Implémentation - Approximation via probabilités prédites. - Estimation de l’effet attendu. - Sélection

des points informatifs.

4.3. Résultats - Précision croissante et régulière (~78 % en fin de cycles). - Points sélectionnés ayant un

impact significatif. - Erreurs concentrées sur caractères très similaires.

4.4. Conclusion Efficace pour améliorer rapidement la performance, plus coûteuse en calcul.

Conclusion générale

EMC : meilleure précision finale, adapté aux problèmes multi-classes.

Variance Reduction : stabilise le modèle, attention aux classes rares.

Density-Weighted : équilibre incertitude et représentativité.

Expected Error Reduction : réduit l’erreur globale, coût computationnel élevé. Globalement, ces

stratégies permettent de réduire le nombre d’exemples annotés tout en maintenant une

performance élevée pour les caractères arabes manuscrits.

Overview

Active Learning Techniques for Arabic Handwriting Recognition

/ 2

114

FAQs

What is Expected Model Change (EMC) in active learning?

Expected Model Change (EMC) is a strategy in active learning that selects samples likely to cause the most significant change in the model when added to the training set. By focusing on instances near the decision boundary or those with high uncertainty, EMC maximizes the information gained from each annotation. This method is particularly effective in multi-class problems, as it allows for targeted improvements in model performance.

How does Variance Reduction improve model stability?

Variance Reduction is an active learning technique that selects samples to minimize the uncertainty in model predictions. By training on instances with high prediction variance, the model becomes more stable and reliable. This approach is crucial in scenarios where certain classes are underrepresented, ensuring that the model learns effectively across all character classes.

What are the main challenges in recognizing Arabic handwritten characters?

Recognizing Arabic handwritten characters presents unique challenges due to the morphological similarities between certain letters. For example, characters like Caafi and Kafi can be easily confused, leading to misclassification. The report highlights these challenges through confusion matrices and discusses strategies to mitigate errors, emphasizing the importance of targeted training on difficult character pairs.

What results were achieved through the active learning techniques discussed?

The implementation of active learning techniques led to a significant increase in model accuracy, improving from 62.05% to 85.54% over 15 training cycles. The report details specific F1-scores for various character classes, indicating that while some characters achieved near-perfect recognition, others remained challenging. These results underscore the effectiveness of active learning in enhancing character recognition systems.

What visualizations are included in the report?

The report includes visualizations such as learning curves that illustrate the model's performance over time and confusion matrices that highlight misclassifications between similar Arabic characters. These visual aids provide a clearer understanding of the model's strengths and weaknesses, making it easier to identify areas for improvement.

Active Learning Techniques for Arabic Handwriting Recognition

Deep Learning Based Medical Image Severity Forecasting System

Career Counselling Workshop Report for Class 12 Students

Coaching Process Progress Report

CMACGM Freight Booking Details for June 2026

Fundamentals of Deep Learning Course Syllabus

Project Management Unit 4 Estimation Techniques

The Hundred Page Machine Learning Book

Matrix Reduction Techniques in Linear Algebra

Data Analytics Overview and Techniques for Businesses

Data Analytics Techniques: Regression and Segmentation

Arabic Numbers 1 to 100 in Arabic Language

Student Learning Assessment Options and Resources

Types and Techniques of Definitions in Linguistics

Focus 4 Teacher’s Book B2/B2+ for English Language Learning

Types of Learning Resources Explained

CH142 Spring 2026 Exam 3 Learning Goals for Chemistry

Window of Tolerance and Emotional Modulation Techniques

Maths Factorisation Techniques and Exercises