TECHNOLOGIES
Recherche et Développement
La numérisation intégrale des chaînes de production, de diffusion et d’archivage des médias a induit un potentiel considérable de recherche et de développement en rendant ces médias calculables, en d’autres termes analysables et traitables par l’informatique.
Conjointement, la nature interactive de l’informatique, contrairement aux mass médias traditionnels comme la télévision ou la radio, a ouvert un champ de recherche et de développement de nouveaux formats de « programmes » (Cédérom, CD hybride, DVDrom, SACD, sites Web, etc.) et de nouveaux services sur de nouveaux réseaux (Internet, TNT, UMTS, P2P, Podcast, etc.)
Cette numérisation intégrale a dynamisé trois communautés scientifiques très complémentaires, voire indissociables, qui convergent pour proposer des méthodes, des algorithmes, des solutions technologiques à ce que l’on appelle désormais les « industries culturelles » :
- Le génie documentaire qui permet aux experts en musique et en gestion documentaire de modéliser des structures de données appropriées à différents usages, et d’élaborer à l’aide de langages de descriptions (XML) des schémas adaptés à des usages (la DTD DocBook par exemple, basée sur XML et pensée pour la documentation technique).
- Le traitement du signal pour l’indexation automatique ou semi automatique des médias qui mobilise différentes méthodes pour nourrir partiellement ou complètement les structures de données (méta-données) qui décrivent les média de plus en plus finement.
- L’ingénierie multimédia qui permet de développer des chaînes éditoriales qui permettent de décrire, annoter, cataloguer, composer et recomposer, d’élaborer de manière semi-automatique et manuelle des publications hypermédia, pour de multiples usages, de multiples réseaux ou supports, linéaires ou de plus en plus souvent non linéaires, interactifs.
Le projet ECOUTE adresse trois verrous majeurs dans ce domaine et entend contribuer à leur résolution :
Génie documentaire musical et sonore
L’ingénierie des connaissances a un double rapport à la connaissance : d’une part elle la modélise pour l’opérationnaliser dans des outils informatiques dont le comportement et fonctionnement doivent se conformer à la sémantique des connaissances modélisées, d’autre part elle a pour but d’assister le travail intellectuel des utilisateurs des systèmes qu’elle conçoit. L’ingénierie des connaissances considère donc la connaissance comme son but et son moyen.
Dans le projet ECOUTE, la problématique de l’ingénierie des connaissances se manifeste à deux niveaux :
- la modélisation des connaissances métiers et documentaires
- l’organisation de leur représentation formelle en fonction de leur généricité et modularité.
Autrement dit, il faut être capable de prendre en compte les connaissances utiles, en les articulant les unes aux autres en fonction de leur généricité. Les difficultés que présentent ces objectifs sont essentiellement les suivantes :
- Dégager les connaissances « métier » propres aux activités des utilisateurs. Mais identifier les connaissances ne suffit pas, il faut les exprimer dans une forme se prêtant à l’instrumentation qui en sera faite. La première difficulté sera donc de modéliser et formaliser les connaissances métiers en représentations utilisables par les outils. On compte deux principaux types de modèles. D’une part, les modèles conceptuels, habituellement qualifiés d’« ontologies », décrivent les notions élémentaires nécessaires l’expression des connaissances. Ils portent sur le contenu des documents utilisés et des activités dont ils font l’objet. D’autre part, les modèles structurels, habituellement qualifiés de « schémas » ou de « grammaires », décrivent la structure des contenus et leur mode d’organisation. Ces deux types de modèles sont exploités dans des structures de raisonnements et de calculs difficiles à caractériser et à expliciter dans la mesure où ils correspondent à des savoirs faire ou des connaissances largement implicites. C’est pourtant ces connaissances qui constituent la clef de systèmes exploitant des ontologies et des structures documentaires. La difficulté sera donc à ce niveau de formaliser l’utilisation des connaissances conceptuelles et structurelles et de les instrumenter.
- D’un point de vue opérationnel, une approche fondée sur les connaissances implique de proposer un langage pour exprimer les différents modèles et une architecture pour les agencer. Si le point précédent porte sur les langages propres à l’expression des connaissances et à leur formalisation, il reste à traiter la question de l’architecture. L’architecture des connaissances doit permettre de contrôler la production de documents ou contenus à l’aide des connaissances formalisées et de fournir les moyens de paramétrer la production des instances documentaires à l’aide de leur modèle. La difficulté est par conséquent de permettre la génération d’une application optimisée pour la production de documents particuliers (par exemple une émission d’interviews musicologiques sur une œuvre donnée) en fonction de la caractérisation des modèles contraignant cette émission.
Architecture et modèles sont donc les deux difficultés majeures d’une ingénierie des connaissances dans le projet ECOUTE.
Contribuer à l’élicitation de la notion de similarité musicale, et à l’indexation et la classification automatique de documents sonores et musicaux.
Les efforts consentis ces dernières années en matière d’indexation et de classification automatique de l’audio n’ont pas encore permis de parvenir à des solutions convaincantes en matière notamment d’extraction sémantique, de recherche par similarité ou de classification automatique.
Le projet Ecoute se concentrera sur l’étude des usages et des pratiques d’écoute pour modéliser ces usages et ces pratiques, en les confrontant aux technologies existantes, afin d’adapter les critères de description existants (notamment dans MPEG7) ou pour en concevoir de nouveaux. Le but poursuivi est de parvenir à opérer un découpage des unités de sens, sur le plan temporel (segmentation parole/musique) comme sur le plan conceptuel (rythme, harmonie, mélodie, style…).
Les champs d’investigation sont :
- L’extraction de paramètres de bas niveau à partir de l’audio : tempo, style rythmique, style harmonique, instrumentation, présence de voix chantée, structure temporelle des morceaux, segmentation parole musique, etc.
- La modélisation de la similarité musicale pour permettre l’enrichissement sémantique à plus haut niveau des interfaces de navigation dans les collections musicales (par exemple : plus/moins énergique, plus/moins mélancolique, plus/moins jazzy, etc.) à partir de l’ensemble des paramètres extraits automatiquement des fichiers musicaux.
Ingénierie multimédia
L’enjeu de l’ingénierie multimédia est la mise en place de chaînes éditoriales orientées métier pour la production de contenus professionnels de nature multimédia et la publication révisable et durable des contenus. L’application de ce type d’approche aux outils auteurs hypermédia pose de nombreux problèmes méthodologiques et techniques :
- Une chaîne éditoriale est un procédé technologique et méthodologique qui permet la production et la publication des contenus en se fondant sur le principe de séparation entre les formats de stockage et de publication. Les formats de stockage décrivent la structure du fonds documentaire tandis que les formats de publication décrivent la forme physique du document vue par l’utilisateur.
- Les chaînes éditoriales sont orientées métier car elles se fondent sur des modèles de contenus propres à un usage ou un ensemble d’usage propres. Ainsi les modèles de contenu, outils de production et moteurs de publication doivent toujours être configurés pour un contexte particulier.
- Les contenus sont professionnels au sens où ils sont élaborés pour rendre un service professionnel (par opposition à la création artistique ou personnelle). Ce sont les caractéristiques propres de ce service professionnel à rendre qui serviront pour la configuration de la chaîne éditoriale (voir annexe principes théoriques).
- Les contenus sont multimédia car ils sont de formes sémiotiques différentes. Ainsi les contenus seront des textes, mais également des vidéos, des sons, des schémas, des animations, etc. Notons que l’enjeu d’une production structurée ne couvre pas uniquement le texte, pour lequel des solutions raisonnablement avancées existent aujourd’hui, mais bien l’ensemble des formes possibles, ce qui pose des problèmes conceptuels et technologiques qui vont au-delà de l’état de l’art.
- La publication est révisable car elle est doit toujours être ajustée rétroactivement en fonction des évolutions des usages et des technologies. En effet, la difficulté introduite par la publication d’objets hypermédia, en terme de politique éditoriale, est que, là ou nous disposons d’une tradition qui permet de définir les canons de publication audiovisuels ou livresques, aucune base solide ne permet de structurer a priori des objets hypermédia pour un usage donné. L’enjeu est donc d’autoriser des révisions aisées des moteurs de publication pour permettre un ajustement empirique des formats de publication des objets hypermédia aux usages.
- La publication est durable car le fonds documentaire constitué est pérenne, la chaîne éditoriale portant l’ensemble des informations relatives aux formats de stockage. En effet, en séparant les formats de stockage des formats de publication, la chaîne éditoriale peut assurer que le fonds respecte des formats de numérisation et de description documentaire indépendants des évolutions technologiques propres aux formats de publication. Une abstraction logique reposant sur XML offre une telle indépendance.
- Les objets publiés sont hypermédia car parmi le spectre des publications possibles (papier, transparents, etc.) se trouve en premier lieu le support numérique, c’est-à-dire un support qui permet une lecture qui n’est ni temporelle et passive (comme pour l’audiovisuel), ni spatiale et active (comme pour le livre), mais spatio-temporelle et interactive (ensemble de liens calculés en fonctions d’actions de l’utilisateur). La lecture interactive d’objets hypermédia implique que l’objet soit publié de telle façon qu’il encadre la lecture en proposant à l’utilisateur un cadrage des parcours possibles (en n’autorisant que ceux qui font sens) et des outils de gestion de ces parcours (pour gérer la désorientation introduite par la rupture de linéarité).
L’environnement de gestion et de publication de collections sonores et musicales développé sera conçu de façon modulaire, pour permettre de construire rapidement à partir d’un framework commun, des chaînes éditoriales « métiers » :
- paramétrer les interfaces et outils auteur en fonction de l’usage attendu des auteurs en intégrant des modules logiciels préexistants,
- générer des masques d’interfaces de rendu permettant aux utilisateurs finaux de visualiser et naviguer dans les contenus publiés sur de multiples réseaux (Webradio, portails musicaux, AudioBlog, P2P, hypermédia mobile, etc.) et multiples supports (Cédérom, DVD , SACD,chaîne HIFI à disque dur, etc.).
