Investigations sur le développement d’applications sous Android

Le but de ce travail était de réaliser une première application pour Smartphone, sous le système Android, afin de parcourir des fonctionnalités utiles pour réaliser une application qui valorise des productions du GETALP.
Il s’agissait non seulement de réaliser une application, mais d’aller jusqu’à son déploiement en le rendant visible et téléchargeables directement comme toutes les applications Android. Il s’agissait aussi de rédiger un tutoriel pour transmettre cette expérience de développement.
Finalement, 2 applications ont été réalisées : un traducteur appelant les services de traduction proposés par TRADOH++ et un livre de phrases exploitant les ressources du projet SURVITRA.

Démonstrations et présentation de programmes produits

Organisateurs Antoine Le Maire, Valérie Bellynck
Présentateur Antoine Le Maire
Participants Francis Brunet-Manquat, Jérôme Goulian, Achille Falaise, Carlos Ramish, Valérie Bellynck
Date et lieu vendredi 28 janvier 2012
Titre Investigations sur le développement d’applications sous Android
Diaporama, références et supports

A l’issu de ces investigations, une recherche a permis de déterminer qu’il est possible de compiler du C++ (ce qui est nécessaire pour embarquer les programmes d’ARIANE), mais en utilisant non pas le SDK, mais le NDK :
http://developer.android.com/sdk/ndk/index.html.

Pas de commentaire

Nouveau Tradoh

Le nouveau TRADOH est service web REST développé en PHP, pour faciliter sa portabilité et son intégration.
Il est installé sur Atoum, avec un formulaire de test:
http://www-clips.imag.fr/geta/User/achille.falaise/traouiero/tradoh2/form.php
(ce formulaire ne permet pas d’afficher toutes les traductions possibles; c’est toujours la première traduction trouvée qui est affichée)
La version de Tradoh2 suivante est utilisable en ligne et maintenue :
API REST: http://aiakide.net/traouiero/tradoh2/
Formulaire de test: http://aiakide.net/traouiero/tradoh2/form.php

Caractéristiques de cette version

  1. on peut spécifier une/des langues « pivot », à utiliser si aucune traduction directe n’est possible, et dans quel ordre
  2. deux systèmes de TA: Systran6 (via serveur de Hong Thai) et Google; il est facile d’en ajouter d’autres
  3. on peut spécifier quel(s) système(s) utiliser, et dans quel ordre
  4. TRADOH essaye d’identifier losqu’un système de TA retourne une erreur
  5. en cas d’erreur, TRADOH essaye les autres possibilités, jusqu’à obtenir une traduction. Il y a aussi un mode où on récupère toutes les traductions possibles
  6. TRADOH retourne toujours de l’UTF-8, y compris si le système de TA retourne en réalité autre chose (dans ce cas on convertit en UTF-8)

Gestion des erreurs

En cas d’erreur, si TRADOH a le choix entre essayer un autre système de TA ou passer par une langue « pivot », il commence par essayer un autre système de TA.

Pas de commentaire

Documentation générée à partir des codes du nouveau TRADOH

La documentation sur Tradoh2 est générée par Doxygen à partir des commentaires insérés dans le code en PHP. Voir tradoh2/doc/html/.

Pas de commentaire

Conception et développement de TRADOH++, phase a

Cet article regroupe les informations sur l’avancement du développement de TRADOH++, phase a.
Cette phase vise un re-développement à minima de TRADOH, mais sous la forme d’une API-REST. Le résultat doit intégrer les même fonctionnalités que le TRADOH d’origine, mais ne doit pas encore intégrer les nouveaux besoins identifiés qui seront intégrés dans le cahier des charges de TRADOH++. En particulier, la possibilité de définir des graphes de commande, et l’exploitation d’un « ROVER » pour faire le tri entre les sorties des différents systèmes de TA

- 5 aout 2011 : Nouveau TRADOH ; Achille
- 19 oct. 2011 : Documentation générée à partir des codes du nouveau TRADOH ; Achille
- 17 nov. 2011 : Intégration de SANDOH dans une API REST ; Hung, Achille

Pas de commentaire

Intégration de SANDOH à une API REST

L’intégration de Sandoh a permis de réaliser un service Web autour du système de Hung (pour l’instant, seulement la version pour les textes homogènes).
Démo de l’API REST en ligne : sandoh/?text=Ceci+est+un+essai
(la sortie est moche, mais elle est destinée à l’intégration, pas à la lecture humaine)
Un début de documentation : sandoh/doc/html/

Etat atteint

Pour l’intégration dans Aximag, il reste à uniformiser les triplets langue/script/codages (par exemple, j’aimerais arriver à détecter du mandarin écrit en pinyin et codé en Latin-1), et ajouter ceux qui ne sont pas encore présents dans Sandoh.
Le Sandoh actuel a quelques limitations (cas des textes très courts, temps de calcul…), et on a des pistes pour l’améliorer et obtenir un Sandoh++ pleinement « opérationnel ».

Pas de commentaire

Préparation du dépôt de TRADOH

Pendant la visite de Hung Vo-trung, il est prévu de consolider les codes à déposer, de renseigner le formulaire de description du logiciel demandé par Floralis, et d’aller jusqu’au bout de la procédure de dépôt de la version basique de TRADOH/SANDOH.
Les informations spécifiques à collecter sont :

  • des informations sur le logiciel lui-même
    - Définition du logiciel : Nom, présentation en 5 à 10 lignes, dates de développement
    - Informations techniques : support fourni- par exemple CD/clé USB, nb exemplaires, version, liste des contenus – codes sources/documentation/autre…, langages de programmation, volume en octets ou nombre de lignes, classe du produit, librairies intégrées au logiciel, autres outils utilisés et état de protection de ces autres outils (quels sont les composantes propriétaires ou open source qui sont utilisés), précisions utiles si le logiciel a déjà été déposé sous une licence libre ou autre
    - Auteurs avec employeurs, période de participation, contribution, part, coordonnées, signature datée
    - Collaborations (lister les partenaires avec les coordonnées du correspondant)
    - Contrats (lister les contrats de recherche utilisés pour la réalisation du logiciel, avec le type de contrat, la référence, es dates de début et fin, et les parties impliquées)
  • des informations sur les perspectives de valorisation (évaluation de la valorisation)
    - Avantages technique et économiques du logiciel (atouts, produits concurrentiels)
    - Domaines d’application possibles (principal domaine d’application, autres domaines, marchés potentiels)
    - Prochaines étapes envisagées (développement techniques, mise en place de collaboration, recherche de partenaire industriel, création d’une entreprise, autre…)
    - Marques d’intérêt industriel ou commercial (entreprises potentiellement intéressées / déjà contactées / avec accord de confidentialité)

Pas de commentaire

Présentation sur Traouiero et les iMAG à ASLIB – 17-18 nov. 2011, Londres

Chrisitan Boitet, Valérie Bellynck et Stéphane Donnet ont participé à la conférence Translating and the Computer Conference, les 17 & 18 novembres 2011 à Londres, organisée par http://www.aslib.co.uk/conferences/index.htm.
Cette conférence rassemble des professionnels des métiers de la traduction en pleine évolution du fait de la possibilité d’utiliser des mémoires de traductions, des systèmes de traduction automatique uniquement basé sur des méthodes statistiques comme Moses ou celui de Google ou de Microsoft, et de prendre en compte des contributions de non experts de la traduction, ainsi que l’utilisation de systèmes pour l’organisation de leur travail en partageant intensivement leurs ressources et leurs travaux de traduction (iCloud).
Christian Boitet a présenté l’article Operationalization of interactive Multilingual Access Gateways (iMAGs) in the Traouiero project.
Parmi les présentations et moments forts de la conférences, j’ai retenu :

Présentation Multilingual Web The Multilingual Web: Latest developments at the W3C/IETF Richard Ishida, Internationalization Activity Lead, W3C (World Wide Web Consortium) http://www.w3.org/International/talks/1111-aslib/
Présentation Evaluation par la tâche An empirical model for MT Quality assessment ond implications for buisness models Sergio Pelino, Senior Program Manager, Localization Operations, Google Localization pas d’article
- Small talk in the Panel session
- Discussion en groupe
- Pro TM talk
- How should translators be paid for machine translation post-editing ? Should they be paid for repeats ?
Juliet Macan, Senior Language Consultant and translator Tools Manager, Intracoop-ic.doc discussion
2 présentations :
- WIPO
-
Spécificités de brevets - Automatic translation tools at WIPO
- Machine Translation between Uncommon Language Pairs via a Third Common Language: The Case of Patents
- Bruno Pouliquen, WIPO
- Benjamin K. Tsou and Bin Lu, Hong Kong Institute of Education
- sur le CD
- sur le CD

Pas de commentaire

Dépôt de ressources linguistiques sur le NAS

Un des objectifs du projet est, dans la sous-tâche LING++ > UW++ de passer à l’échelle dans la base multilingue liée à des UW++ (lexèmes interlingues), et donc de récolter des ressources linguistiques libres de droit.

Un NAS a été acquis dans le cadre du projet pour les rendre accessibles. Actuellement, l’état de configuration du NAS les met à disposition en interne au laboratoire. Une fiche a été rédigée pour les aspects technique relatifs à l’utilisation de cet espace, dont un pointeur est donné dans la page de l’intranet de l’équipe : Quelques pointeurs vers des ressources utiles de TALN.

L’engagement à l’ouverture de l’accès et de la collecte de ce type de données dédiées aux traitements de la langue, a fait ressortir la nécessité de définir les spécificités d’un entrepôt spécialisé. Ces réflexions feront l’objet de nouveaux travaux de recherche. En attendant, les données récoltées dans le cadre du projet sont simplement déposées sur l’espace de stockage et d’accès réalisé par ce NAS.

Les données récoltées dans le cadre du projet Traouiero y sont regroupées par tâche et sous-tâche, similairement à l’organisation du projet lui-même. Ainsi, par exemple, un dossier LING++ a été créé, pour contenir un dossier UW++, lui même contenant un dossier pour les ressources lexicales sur l’arabe récoltées dans le cadre du projet.

Organisation des données sur le NAS - données de Mohammad

Organisation des données sur le NAS - données de Mohammad

Voir aussi l’article Partage des données récoltées par Mohammad.

Pas de commentaire

Partage des données récoltées par Mohammad

Les données sur l’Arabe récoltées par Mohammad Daoud ont été déposées sur le NAS de l’équipe :

Organisation des données sur le NAS - données de Mohammad

Organisation des données sur le NAS - données de Mohammad

Toutes les informations sur l’accès et l’utilisation du NAS sont rédigées dans une fiche de l’intranet du site Web de l’équipe GETALP, avec un lien depuis la page qui liste quelques pointeurs vers des ressources utiles de TALN

Vous pouvez aussi vous adresser directement à Achille Falaise.

Pas de commentaire

Création d’un projet Modul-STA sur la forge

Le projet Modul-STA y est défini avec les informations suivantes :

Résumé
Fichiers source de modules de systèmes de TA utilisables séparément/
Source files of MT systems modules usable separately
Description
Modules de systèmes de TA utilisables séparément
Versionnage
svn checkout svn+ssh:// [votre login] @scm.forge.imag.fr/var/lib/gforge/chroot/scmrepos/svn/modulsta/trunk
Visibilité
Privé (= réservé aux seuls inscrits qui y ont un rôle)
Page d’accueil
http://modulsta.forge.imag.fr
https://forge.imag.fr/projects/modulsta/
Liste de diffusion
http://lists.forge.imag.fr/mailman/listinfo/modulsta-commits
http://lists.forge.imag.fr/cgi-bin/mailman/admin/modulsta-commits/general pour les administrateurs de la liste

Participants

Christian connait tout
Sylviane experte des systèmes de TA exploitant les langages d’Ariane
Jean-Philippe expert linguiste des systèmes de TA exploitant les langages d’Ariane
Jean-Claude développeur des moteurs d’Ariane-Y
Vincent développeur d’Héloise, basé sur l’exploitation les langages d’Ariane
Hervé
Valérie soutien « logistique »

Principes

En plus d’un dossier pour la documentation, dans les fichiers source sont prévus :

  • un dossier pour chaque machine virtuelle de l’IBM, définissant ainsi un « sous-projet »

L’arborescence de chaque sous-projet doit correspondre exactement à celle qui existe sous l’IBM, plus quelques dossiers importants pour l’opérationalisation comme un dossier pour de la documentation.

Les jeux de tests font aussi parti des éléments mémorisés sous la forge, ainsi que leur exploitation dans une chaîne de traitement.

Pas de commentaire

SetTextSize SetPageWidth