Top 3 : les assistants vocaux, au delà des “enceintes connectées”

6 min readJan 5, 2020

On réduit souvent les assistants vocaux — et même tout ce qui est lié au vocal — aux “enceintes à commande vocale”. Certes, ces appareils ont rencontré un certain succès (au vu des ventes d’Amazon Echo ou Google Home), mais l’usage autour de ces dispositifs est trop limité. Ces objets deviendront très certainement rapidement obsolètes. Cependant, la technologie qui y est intégrée a un formidable potentiel. Elle est déjà implémentée — ou en cours d’intégration— dans notre environnement quotidien : smartphones, tableaux de bord des nouvelles voitures, et même télévisions sous Android TV ou reliées à des boîtiers type Mi Box S / Amazon Fire TV.

Alexa et l’Assistant Google disposent depuis peu de nouvelles possibilités, très intéressantes notamment pour les médias. Il y a sûrement un coup à jouer avec ces trois fonctionnalités.

1- Monétisation via Alexa ISP (In-Skill Purchasing) et/ou Actions on Google’s Transactions

Les développeurs d’applications pour Alexa (“skill”) peuvent gagner de l’argent en proposant aux utilisateurs trois types de produits :

One-time purchases: Achat unique permettant d‘accéder à un contenu, sans durée de validité. Cet achat ne peut pas être effectué plusieurs fois par le même utilisateur (il ne peut pas se procurer plusieurs fois la même chose). Exemple concret : RFM a créé un quizz où l’on peut acheter des packs de questions supplémentaires.
Consumables: Fonctionnalités pouvant être achetées plusieurs fois par l’utilisateur. Souvent utilisé par des jeux, pour obtenir des indices ou des “vies”.
Subscriptions: Souscription permettant d’accéder à un ensemble de choses pendant une durée limitée. L’utilisateur est facturé tous les X jours, jusqu’à ce qu’il indique vouloir résilier son abonnement. Un podcast Premium facturé 1€/mois pourrait être diffusé via Alexa en utilisant ce mécanisme par exemple :

Utilisateur : “Alexa, lance Bar Pod”
Skill Alexa : “Bar Pod n’est disponible à l’écoute que via abonnement Barbar Plus. Les abonnés peuvent ainsi écouter tous les jours les podcasts exclusifs Bar Pod. La souscription à Barbar Plus coûte 2€ par mois. Souhaitez-vous vous abonner ?”
Utilisateur : “Oui”
(…) [une fois que l’utilisateur est bien abonné]
Skill Alexa : “Je vous diffuse tout de suite le dernier épisode du Bar Pod, un entretien exclusif avec le président Foo”

Les paiements se font naturellement par la voix et sans frictions. Le moyen de paiement utilisé est celui associé au compte Amazon de l’utilisateur.
Plus d’informations sur ce mécanisme ici.

L’équivalent du côté de l’Assistant Google existe également (“Transactions”), basé sur des principes similaires. Cependant, les produits virtuels (souscription ou achat unitaire) sont gérés via Google Play Store… Il faut donc s’inscrire en tant que développeur d’applications du Play Store, et payer des frais d’inscription notamment. Pour mettre en place la monétisation de contenus via l’assistant vocal de Google, il faut ainsi au préalable publier au moins en version alpha une application Android , et la lier à son application conversationnelle sur le tableau de bord Actions on Google.

2- Combiner l’image et l’audio, avec Alexa APL, Alexa Web API et Google Interactive Canvas

La mise sur le marché d’appareils avec écran comme le Google Nest Hub et l’Amazon Echo Show montre bien qu’un assistant vocal ne s’appuyant que sur du son est trop limité, et que les interactions visuelles sont naturellement nécessaires.

Amazon propose sa propre structuration “Alexa Presentation Language” (APL), permettant de spécifier les éléments de réponses à afficher et gérant les interactions au toucher. Ainsi pour un quiz, on peut répondre par la voix “réponse A”, ou bien cliquer sur la réponse A affichée sur l’écran.
Exemple concret : le quiz de RFM précédemment cité utilise également APL pour afficher les réponses.

Avec APL, j’étais assez surpris qu’Amazon “réinvente la roue” pour afficher du contenu sur un écran. HTML/CSS/JS c’est très bien et ça fonctionne depuis suffisamment longtemps ! C’est peut-être la réflexion que les ingénieurs se sont faite récemment, à en croire ce billet de blog invitant les développeurs à tester “Alexa Web API”, interface permettant d’intégrer le web actuel avec Alexa. Mais pour l’instant cela ne concerne que les applications sous forme de jeu (dommage, c’est l’usage le plus complexe !). Google propose l’équivalent sur son Assistant, Actions on Interactive Canvas, également uniquement disponible pour les jeux à ce jour.

3- Les “raccourcis vocaux” au quotidien : Routines

Il est possible de programmer des “routines” pour l’Assistant Google et Alexa. L’idée est de spécifier l’ensemble des actions à faire, en fonction d’une phrase en particulier.
La routine la plus avancée et la plus intéressante aujourd’hui est celle diffusant les dernières actualités (Alexa Flash Briefing / Google Assistant News). L’utilisateur peut programmer sa propre radio personnalisée ! Et ainsi écouter, lorsqu’il demande “les actualités”, le dernier bulletin de franceinfo, puis le dernier journal de RTL, etc.

Et demain… Cas d’usage

Tout ne sera pas que “vocal”. Au contraire, le web actuel et les objets connectés n’incluent pas suffisamment bien le son et ce problème est en phase d’être résolu, étape par étape. Nous ne ferons pas tout en audio ; nous allons petit à petit piloter l’existant avec la voix quand cela s’avérera plus pratique.

Au moyen d’une simple phrase, nous pourrons nous abonner ou nous désabonner auprès d’éditeurs fournissant ensemble un flux d’actualités en podcast / vidéo / textuel taillé sur mesure selon nos habitudes et nos préférences.
Nous rechercherons un produit sur un site web d’e-commerce non plus en s’infligeant d’écrire la requête dans la barre prévue à cet effet mais en le dictant à son écran directement (des débuts prometteurs sont visibles aujourd’hui en ligne mais actuellement il n’y a pas spécialement d’intégrations poussées entre les interactions vocales et les webapps)
Nous pourrons automatiser un ensemble de tâches, selon un contexte et en énonçant son humeur : tous les appareils en veille ou mode silencieux lorsque l’on dit vouloir “ déconnecter” le dimanche par exemple.

Il n’y a toujours pas d’applications vocales rencontrant un véritable succès comme on a pu le connaître avec le smartphone (par exemple Doodle Jump, Uber ou plus récemment Tik Tok). L’aspect conversationnel y est sûrement pour beaucoup. Au lieu d’être impliquée dans des chatbots audio, la voix est vouée à être utilisée pour simplifier les usages existants : lancer une radio, connaître la météo, etc.

En podcast : Le futur de la radio, via les assistants vocaux ?

Des Ondes Vocast (gratuit)

Des archives qui ont marqué la bande FM aux discussions autour des futurs possibles du média, “Des Ondes Vocast” est dédié aux passionnés de radio.
Je produis un épisode d’une trentaine de minutes tous les mois. Ce podcast à écouter sur le site web de Vocast, Apple Podcasts, Google Podcasts, Spotify, Deezer, TuneIn ou sur n’importe quelle autre plateforme de podcasts (via ce lien RSS).

Des Ondes Vocast Premium (1€/mois remboursable et sans engagement)

Cet article est aussi disponible en audio, dans le podcast Des Ondes Vocast Premium . Cette souscription vous permet d’obtenir votre fil RSS membre privé, que vous pourrez facilement ajouter au sein de votre plateforme de podcasts préférée. Et pourquoi pas aussi en souscription via Alexa (ISP + APL) ? Dites moi si cela vous intéresserait, je pourrais peut-être le développer… Contact : contact@vocast.fr ou via Twitter.