Accéder au contenu.
Menu Sympa

accessibilite - Re: [Accessibilite] accessibilité visio-conférence pour handicap auditif

Objet : Liste de diffusion du groupe de travail Accessibilité (liste à inscription publique)

Archives de la liste

Re: [Accessibilite] accessibilité visio-conférence pour handicap auditif


Chronologique Discussions  
  • From: Laurent Lyaudet <laurent.lyaudet AT gmail.com>
  • To: accessibilite AT april.org
  • Subject: Re: [Accessibilite] accessibilité visio-conférence pour handicap auditif
  • Date: Fri, 7 Apr 2023 23:51:24 +0200

Bonjour,

J'ai vu plusieurs vidéos récemment de produits qui vont bientôt
arriver sur le marché (au cours de l'année 2023 si tout va bien).
Ce sont des lunettes qui sous-titrent en temps réel les conversations.
Par exemple, il y a cette startup :
https://www.xander.tech/xanderglasses
Mais ce n'est pas la seule que j'ai vu.
La grosse question que je me pose c'est si ce sera aussi performant
avec les autres langues que l'anglais,
ou s'il faudra attendre quelques années de plus pour le même
dispositif chez nous.
En tout cas, du côté de la miniaturisation électronique c'est au point
(micro, écran, batterie, etc.),
d'ailleurs on peut déjà en acheter sans logiciel de retranscription vocale :
https://www.vuzix.eu/products/vuzix-blade-smart-glasses-upgraded

C'est la partie logicielle maintenant qu'il faut peaufiner pour que ça
tourne sur des lunettes.
Alors ça peut sembler trop compliqué par rapport à votre question
puisqu'il doit y avoir des outils de retranscription vocale
automatique logiciel,
qui se "contentent" d'analyser le flux audio sur le PC.
Mais l'avantage de ce genre de solutions c'est que c'est "universel"
dans le sens que peu importe l'OS, le logiciel de vidéo-conférence,
etc.,
ça pourra marcher.
Et quand on a un handicap auditif, généralement ça ne gêne pas que
pour la visioconférence.
Dans le même registre, il y aussi les aides auditives classiques
vendues chez les audio-prothésistes ;
mais je suppose que si vous demandez ici, c'est que cette solution
n'est pas envisageable.
Voilà, désolé si ma réponse typée "Gadget High-Tech" n'est pas encore
disponible,
mais comme je ne connais pas de logiciel de retranscription vocale
automatique,
j'ai voulu partager ce que j'avais vu.

J'ai aussi cherché : "github audio transcription"
dans Google, et ça m'a renvoyé plusieurs librairies open source de
transcription audio
qui fonctionnent sur des fichiers statiques à première vue.
Du coup, en ajoutant streaming à ma recherche, j'ai vu ça :
https://github.com/openai/whisper
OpenAI ce sont ceux qui font ChatGPT et whisper est leur IA de
reconnaissance vocale,
et apparemment il y a déjà ça :
https://github.com/shirayu/whispering
pour aider à le câbler sur un flux en streaming style visio-conférence.
Du côté de la concurrence en IA,
il y a bien entendu Google avec Google speech.
J'ai pas vu comment le câbler en streaming,
par contre pour des fichiers statiques, il y a ça :
https://github.com/googleapis/python-speech
En tout cas, c'est un domaine de recherche (théorique et industrielle)
très actif.
Il y a encore des petits progrès à faire si on regarde les sous-titres
automatiques sur YouTube,
mais Google utilise sa solution sur Youtube et donc ils sont obligés
de faire du mieux qu'ils peuvent.
Donc si ce n'est pas parfait, c'est que c'est dur pour tous les
chercheurs du domaine.

Niveau coût pour whisper ça coûte 6 millième de dollars par minute :
https://openai.com/pricing
donc 36 centimes de dollar pour une heure de visioconférence.
En regardant de plus près, j'ai vu que whisper est complètement libre,
donc n'importe qui peut l'utiliser sur son PC sans passer par le cloud
d'OpenAI.
Mais d'après ce lien :
https://www.daginge.com/blog/running-whisper-on-an-m1-mac-to-transcribe-audio-data-locally
sur un portable assez puissant, la vitesse de transcription est de
1/10e du temps réel.
Il est possible que sur un PC de bureau très puissant style dernière
génération de processeurs Intel ou AMD
et surtout dernière génération de carte graphique Nvidia pour faire
tourner l'IA en local,
on arrive à du temps réel ou quasi.
Mais pas sûr que ce soit rentable par contre,
car la carte graphique "grand public" la plus puissante chez Nvidia
coûte tout de même entre 1900 euros et 2500 euros
(et consomme 450 W (juste la carte graphique) il faut rajouter le
reste de l'ordi en plus),
ce qui est peu par rapport aux 30 000 euros de leurs cartes les plus
puissantes pour les serveurs cloud ;) XD.

Voilà, j'espère que ça pourra vous aider :)

Je vous souhaite un bon week-end, bien cordialement,
Laurent Lyaudet


Le ven. 7 avr. 2023 à 16:37, Florence <florence AT marsnet.org> a écrit :
>
> Bonjour,
>
> Je suis a la recherche de solution d'accessibilité pour personne ayant un
> handicap auditif pour la visio conférence , donc des outils de
> retranscription vocale automatique pour réunions à distance.
>
> Que pouvez vous me conseiller comme solution ou comme source d'information
> à ce sujet ?
>
> D'avance merci
>
> Cordialement
>
> Florence Delahaye
>
>
>
> --
> Pour connaître la configuration de la liste, gérer votre abonnement à la
> liste accessibilite et vos informations personnelles :
> https://listes.april.org/wws/info/accessibilite



Archives gérées par MHonArc 2.6.19+.

Haut de le page