Aubrays Conseils & Formations Logo écrit Aubrays Conseils & Formations
Une paire de lunettes posée sur un livre ouvert

Super Text Files for Orange Textable

Avec la reconnaissance optique des caractères, les utilisateurs d'Orange Textable, un logiciel d'analyse textuelle, ajoutent rapidement des textes à partir d'images ou de PDF afin de les traiter et les analyser.

Une séquence visuelle pour aider l’analyse

Développé par Aris Xanthos, linguiste et informaticien à l’Université de Lausanne, Orange Textable simplifie la construction d’un processus d’analyse de textes. En alignant visuellement des modules configurables, l’utilisateur peut rapidement obtenir des résultats sans notion de développement informatique. Et oui, nul besoin de savoir coder !

Pourquoi utiliser un logiciel visuel ?

Imaginons que pour valider un cours de traitement informatique des corpus textuels, nous voulions connaître le vocabulaire anglais minimal pour apprendre la programmation. Et bien nous pourrions récupérer la documentation du Mozilla Developper Network (MDN), nettoyer les données, connaître la nature de chaque mot, compter tous les termes identiques puis exclure les déterminants ou d’autres chaînes de caractères particulières (<div> par exemple).

Et bien visuellement, ça donne cette longue suite d’opérations.

La reconnaissance optique de caractères (OCR) pour du tout en un

Dans le projet précédent, le corpus était issu de pages web extraites (scrappées) depuis le site. Avec l’OCR, des textes non-numérisés, par exemple des articles de journaux, des affiches publicitaires, des photos d’événements, deviennent lisibles par l’ordinateur et par conséquent analysables.

C’est pourquoi nous avons développé Super Text Files, un prolongement de Text Files. Fonctionnant avec Tesseract, l’utilisateur profite des avancées de la communauté, dont Google, pour obtenir les meilleures résultats. Bien que basé sur des processus complexes, l’interface de Super Text Files est tournée vers la simplicité d’utilisation et la rapidité d’exécution pour l’utilisateur final.

Interface avancé

Interface avancée pour de l’OCR avec Tesseract

En savoir plus

Projet réalisé en collaboration avec Fabio Torres Cabral sous la direction d’Aris Xanthos (SLI, Unil)

La liste de mots anglais pour débutant en programmation vous intéresse ? Écrivez-nous !