transcriptions - Re: [Transcriptions] qui veut faire de la transcription audio avec Vosk?

Objet : Transcription de fichiers son ou de videos de conférences (liste à inscription publique)

Archives de la liste

Re: [Transcriptions] qui veut faire de la transcription audio avec Vosk?

From: Syméon <symeon AT zaclys.net>
To: Baptiste Lemoine - Cipher Bliss <contact AT cipherbliss.com>, Transcriptions <transcriptions AT april.org>
Subject: Re: [Transcriptions] qui veut faire de la transcription audio avec Vosk?
Date: Tue, 9 Mar 2021 21:54:10 +0100
Authentication-results: vip.april.org; dkim=pass (1024-bit key; secure) header.d=zaclys.net header.i= AT zaclys.net header.b="Qgdiye/u"; dkim-atps=neutral
Authentication-results: mail.zaclys.net; dmarc=fail (p=reject dis=none) header.from=zaclys.net
Authentication-results: mail.zaclys.net; spf=fail smtp.mailfrom=symeon AT zaclys.net
Dmarc-filter: OpenDMARC Filter v1.3.2 mail.zaclys.net 129KsBX8038288

Bonsoir Baptiste,

Oui, Vosk fait vraiment un super boulot.
Et la création à la volée d'un fichier de .srt que tu proposes ouvre des perspectives vraiment intéressantes !!

Je profite de ton message pour préciser deux points que tu évoques :

beaucoup de mots que j’ai utilisé dans cette vidéo sont pas évident à comprendre pour le bouzin. Rien que MarkDown ou Chapril ça donne des remplacement marrants

Oui, beaucoup de mots ne sont pas reconnus dans le (gros) modèle LINTO.
Dans la première transcription que j'avais faite (celle de l'émission « Le Code a changé », sur la notation généralisée), TripAdvisor et AirBnB ne passaient pas. :-D

Il est possible de mettre à jour le modèle ; ça implique d'installer Kaldi (c'est un peu sport...), mais ensuite, la manip' est expliquée ici : https://alphacephei.com/vosk/adaptation#updating-words-and-the-vocabulary-in-the-big-models. Perso, je ne m'y suis pas encore frotté

Le script ne distingue pas encore les différentes personnes qui parlent

Pour le moment, si je ne me plante pas, Vosk n'est pas prévu pour cette tâche (speech diarization).
Sur le fil de discussion Telegram de vosk, la dernière fois que la question a été posée, la réponse était un renvoi vers un tuto Kaldi (pas encore testé) : https://towardsdatascience.com/speaker-diarization-with-kaldi-e30301b05cc8
Pareil, je n'ai pas encore testé.

Pour l'instant, j'ai bricolé, à partir des observations faites sur plusieurs enregistrements, une règle empirique : tout silence ≥ 1 seconde distingue deux blocs.
Mais ça suppose une conversation posée, pas un débat enflammé avec interruptions dans tous les sens :-P

Bonne soirée,

Renaud.

[Transcriptions] qui veut faire de la transcription audio avec Vosk?, Baptiste Lemoine - Cipher Bliss, 09/03/2021
- Re: [Transcriptions] qui veut faire de la transcription audio avec Vosk?, Syméon, 09/03/2021

Archives gérées par MHonArc 2.6.19+.

Archives de la liste

Re: [Transcriptions] qui veut faire de la transcription audio avec Vosk?