Accéder au contenu.
Menu Sympa

transcriptions - Re: [Transcriptions] qui veut faire de la transcription audio avec Vosk?

Objet : Transcription de fichiers son ou de videos de conférences (liste à inscription publique)

Archives de la liste

Re: [Transcriptions] qui veut faire de la transcription audio avec Vosk?


Chronologique Discussions 
  • From: Syméon <symeon AT zaclys.net>
  • To: Baptiste Lemoine - Cipher Bliss <contact AT cipherbliss.com>, Transcriptions <transcriptions AT april.org>
  • Subject: Re: [Transcriptions] qui veut faire de la transcription audio avec Vosk?
  • Date: Tue, 9 Mar 2021 21:54:10 +0100
  • Authentication-results: vip.april.org; dkim=pass (1024-bit key; secure) header.d=zaclys.net header.i= AT zaclys.net header.b="Qgdiye/u"; dkim-atps=neutral
  • Authentication-results: mail.zaclys.net; dmarc=fail (p=reject dis=none) header.from=zaclys.net
  • Authentication-results: mail.zaclys.net; spf=fail smtp.mailfrom=symeon AT zaclys.net
  • Dmarc-filter: OpenDMARC Filter v1.3.2 mail.zaclys.net 129KsBX8038288

Bonsoir Baptiste,

Oui, Vosk fait vraiment un super boulot.
Et la création à la volée d'un fichier de .srt que tu proposes ouvre des perspectives vraiment intéressantes !!

Je profite de ton message pour préciser deux points que tu évoques :

beaucoup de mots que j’ai utilisé dans cette vidéo sont pas évident à comprendre pour le bouzin. Rien que MarkDown ou Chapril ça donne des remplacement marrants

Oui, beaucoup de mots ne sont pas reconnus dans le (gros) modèle LINTO.
Dans la première transcription que j'avais faite (celle de l'émission « Le Code a changé », sur la notation généralisée), TripAdvisor et AirBnB ne passaient pas. :-D

Il est possible de mettre à jour le modèle ; ça implique d'installer Kaldi (c'est un peu sport...), mais ensuite, la manip' est expliquée ici : https://alphacephei.com/vosk/adaptation#updating-words-and-the-vocabulary-in-the-big-models. Perso, je ne m'y suis pas encore frotté

Le script ne distingue pas encore les différentes personnes qui parlent
Pour le moment, si je ne me plante pas, Vosk n'est pas prévu pour cette tâche (speech diarization).
Sur le fil de discussion Telegram de vosk, la dernière fois que la question a été posée, la réponse était un renvoi vers un tuto Kaldi (pas encore testé) : https://towardsdatascience.com/speaker-diarization-with-kaldi-e30301b05cc8
Pareil, je n'ai pas encore testé.

Pour l'instant, j'ai bricolé, à partir des observations faites sur plusieurs enregistrements, une règle empirique : tout silence ≥ 1 seconde distingue deux blocs.
Mais ça suppose une conversation posée, pas un débat enflammé avec interruptions dans tous les sens :-P

Bonne soirée,

Renaud.




Archives gérées par MHonArc 2.6.19+.

Haut de le page