Loading...

Deepgram – $12 millions de dollars pour créer des modèles de reconnaissance vocale pour les entreprises

Diplômé du Y combinator, Deepgram est une société cofondée par Noah Shutty en 2015. La société qui construit des modèles de reconnaissance vocale sur mesure vient de clôturé un round de financement à hauteur de $12 millions.  Selon Scott Stephenson, le PDG et cofondateur Scott, Si tout se déroule comme prévu, si l’échelle de Deepgram correspond finalement à celle de la concurrence cela pourrait faire gagner un temps précieux aux organisations en mettant en lumière les résultats clés. Le produit de la vente soutiendrait le développement de la plate-forme Deepgram, qui aide les entreprises à traiter les enregistrements des réunions, des appels et des présentations. 

Les technologies destinées aux consommateurs comme Alexa et Siri ont ouvert la voie à la reconnaissance vocale.  Cependant … la reconnaissance vocale prédéfinie ne peut que vous mener jusqu’ici, et le fait de consacrer des ressources au problème ne résoudra pas non plus le problème.  Chez Deepgram, nous avons créé une solution entièrement différente utilisant un apprentissage en profondeur de bout en bout, résultant en une solution plus rapide, beaucoup plus précise et fiable qui répond véritablement aux besoins des entreprises.

Une pile vocale pour appui

Deepgram s’appuie sur une pile vocale d’arrière-plan qui évite les pipelines conçus à la main pour le traitement heuristique, basé sur les statistiques et de bout en bout de l’IA, avec des modèles hybrides formés sur des PC équipés de puissantes unités de traitement graphique.  Chaque modèle personnalisé est créé de zéro et peut ingérer des fichiers dans des formats allant des appels téléphoniques et des podcasts aux réunions et vidéos enregistrées.  Deepgram traite le discours, qui est stocké dans ce qu’on appelle un «indice de représentation profonde» qui regroupe les sons par phonétique par opposition aux mots.  Les clients peuvent rechercher des mots en fonction de leur prononciation et, même s’ils sont mal orthographiés, Deepgram peut les trouver.

Selon Scott Stephenson, les modèles de Deepgram captent automatiquement les éléments tels que les profils de bruit de microphone, ainsi que le bruit de fond, les encodages audio, les protocoles de transmission, les accents, la valence (càd. L’énergie), le sentiment, les sujets de conversation, les taux de parole, les noms de produits et les langues.  De plus, il affirme qu’ils peuvent augmenter la précision de la reconnaissance vocale de 30% par rapport aux lignes de base de l’industrie tout en accélérant la transcription de 200 fois et en gérant des milliers de flux audio simultanés.

Bientôt, les modèles deviendront encore plus performants avec le lancement de deux nouvelles fonctionnalités: le streaming en temps réel et le déploiement sur site.  Le streaming en temps réel permettra aux clients d’analyser et de transcrire la parole au fur et à mesure que les mots sont prononcés, tandis que le déploiement sur site fournira une instance privée et déployable du produit Deepgram pour les cas d’utilisation impliquant des données audio confidentielles, réglementées ou autrement sensibles.

Un marché fait de géants pour compétiteurs

Loin d’être le seul acteur sur le marché de la reconnaissance vocale qui devrait valoir 21,5 milliards de dollars d’ici 2024, selon Markets and Markets, Deepgram compte dans ses compétiteurs des géants de la technologie comme Nuance, Cisco, Google, Microsoft et Amazon qui proposent des services de transcription et de sous-titrage vocaux en temps réel, tout comme la startup Otter.  Il y a également Verbit, qui a récemment recueilli 31 millions de dollars pour sa technologie de transcription d’IA humaine;  Oto, qui a décroché 5,3 millions de dollars en décembre dernier pour améliorer la reconnaissance vocale avec les données d’intonation; et Voicea, qui a récolté plus de 20 millions de dollars pour l’IA qui tire des enseignements des notes de réunion.

Mais selon Stephenson, Deepgram n’a pas eu beaucoup de mal à attirer des clients.  Il en compte plus de 30 actuellement, dont Genesys, Memrise, Poly, Sharpen et Observe.ai.

Laisser un commentaire

TRIVMPH

NOUS NE RÊVONS PAS DE SUCCÈS, NOUS LE BATISSONS !

Traduire

Catégories

Le future appartient aux optimistes

%d blogueurs aiment cette page :