Everything you need to know

Tal till text, automatisk transkription, automatiska undertexter, automatisk taligenkänning (ASR), datoriserad taligenkänning och röst till text är alla inom samma område av AI-teknik som omvandlar talade ord till skriven text.

Vad är tal till text?

Tal till text är ett system för automatisk taligenkänning (ASR) som huvudsakligen består av statistiska modeller som mappar kontinuerliga talade yttranden eller talvågformer till text på mänskligt språk. ASR-systemet består av en språkmodell, en uttalsmodell (lexikon/ordbok) och en akustisk modell. När ASR-systemet konsekvent matas och tränas med nya taldata från flera talare får det ett utökat ordförråd, och noggrannheten i ASR:s utskrift ökar. Ju mer ASR-systemet har använts, desto bättre blir noggrannheten. Noggrannheten mäts och fastställs med hjälp av ordfelprocenten (WER).

For an ASR model to be considered highly accurate, the WER correspondence needs to be less than 10%. Txtplays ASR model is considered being highly accurate and that's because we deliver an accuracy of 94%.

Varför behöver vi den?

  • Language barriers: subtitles allow people to understand languages that aren't their mother tongue/they don't speak by translating words or sentences into the user's preferred language.
  • Improved concentration: help for people with reading or learning difficulties. People with reading or learning difficulties can benefit from subtitles to understand the content better and faster.
  • Noisy environments: in noisy environments, for example in public places, aeroplanes or trains, subtitles make it possible to follow along in the dialogue.
  • Subtitles: is an excellent resource for language learning.
  • Avoid disturbing others; most people watch videos on mute while in public.
  • Citations and references: for researchers, writers and journalists, subtitles can be a valuable source of citations and references when writing about film or media content.
  • Transcription of long interviews: 1 hour of audio content takes about 6 hours to transcribe manually,

Speech-to-text and automatic speech recognition (ASR) enable audio content to be visually accessible for everyone by adding text. Adding speech-to-text and subtitles provides accessibility for hearing-impaired audiences who would otherwise be excluded from this content. Therefore, automatic speech recognition (ASR) has become a necessity to possess to make content accessible to everyone.

Att göra videoinnehåll på nätet tillgängligt för alla har blivit ett nytt EU-direktiv som fastställts i riktlinjerna från European Disability Forum Guidelines och riktlinjerna för tillgänglighet till webbinnehåll (WCAG).

Datum för EU-direktiv och lagstiftning:

  • 23 september 2019: Tillgänglighetskraven gäller för alla offentliga webbplatser som lanseras efter detta datum.
  • September 23'rd in 2020: The law will be applied backwards too - that is, it will apply to all public sector sites.
  • Den 23 juni 2021: Lagstiftningen gäller även mobila applikationer.

Hur fungerar tal till text med taligenkänning?

Med automatisk taligenkänning (ASR) känner en algoritm igen de ord som talas i videon och levererar maskinbaserade texter för indexering, textning och sökning. Resultatet är bra och användbart, men inte alltid perfekt. Det resultat som levereras beror mycket på ljudkvaliteten hos det använda källmaterialet.

Om det finns mycket brus och om många människor pratar i varandras munnar blir resultatet inte perfekt. Undertexterna måste därför ofta omarbetas, men det tidskrävande arbetet har gjorts - särskilt när det gäller undertexternas timing. Txtplay kan erbjuda efterbearbetning av undertexterna på timbasis.



Sök efter ett ord eller klicka på texten för att navigera. Undertexterna i det här exemplet har inte efterbehandlats utan kommer direkt från vår algoritm för tal-till-text-analys.

Kom igång!

Steg 1: Skapa ditt Txtplay-konto
Tryck Kom igång på vår webbplats för att komma direkt till sidan för att skapa ett konto. På sidan skriver du in ditt namn, din e-postadress och ditt valda lösenord. När du har skapat ditt konto skickar vi en aktiveringslänk till din e-postadress. Om du inte får något aktiveringsmeddelande kontrollera din skräppost- eller skräppostmapp. Annars kan du skicka ett e-postmeddelande till vår support på contact@imgplay.com.

Steg 2: Välj din betalningsmetod
Txtplay accepterar nästan alla betalningsmetoder som American Express, Visa och Mastercard.

Steg 3: Välj en av våra prismoduler
Välj mellan Pay as you go, Pro och Enterprise.

Betala när du går: Perfekt för snabb och enkel tillgång till transkriptioner och undertexter!

Pro: För yrkesverksamma som dagligen har behov av transkribering. Du får större rabatter ju fler transkriptioner som ingår. Kontakta vår säljare för mer information.

Enterprise: Rabatter för stora volymer med avancerade funktioner som är byggda för team. Kontakta vår säljare för ett tillfredsställande samarbete!

Steg 4: Ladda upp din ljud- eller videofil
Ladda upp ditt medium och välj språk. Vår taligenkänningsmotor tar hand om jobbet och meddelar dig när det är klart. Du kan fortsätta att arbeta medan vår AI utför magin.

Steg 5: Redigera din ljud- eller videofil
Vi kopplar ditt media till transkriptionen i vår textredigerare där du kan uppdatera, markera, upptäcka talare och söka i din text samt bläddra i ditt ljud eller din video.

Steg 6: Exportera till över 20 format
Vi stödjer över 20 format, inklusive srt, vtt och docx. Du kan finjustera exporten med detaljer som tidskod, Atlasformat och talare. Vi har också utvecklingsvänliga alternativ.

Gratis eller betald tal till text

Det finns gratis tal till text-versioner som du kan hitta på nätet, men det finns några skillnader mellan gratis och betalda versioner som vi tycker är viktiga att tänka på. Den första är kvaliteten på de transkriptioner som den kostnadsfria ASR genererar. De har ofta låg noggrannhet. På Txtplay strävar vi alltid efter att öka vår noggrannhet, så att vi kan leverera högkvalitativa transkriptioner till våra kunder. För det andra har gratistjänsterna ett pris, och det är dina uppgifter. De behåller dina uppgifter i eget intresse. På Txtplay tror vi på integritet och säkerhet och därför raderar vi alltid alla våra kunders uppgifter direkt efter att din process är klar. För det tredje har gratistjänster ibland inte stöd för det filformat du behöver. På Txtplay stödjer vi export av utskrifter till över 20 format vilket gör det möjligt för våra kunder att till exempel ladda ner utskriften som en Word-fil för att inkludera den i en intervju eller en srt-fil för att lägga till undertexter till en video.

Andra kostnadsfria tjänster för tal till text

  • Låg noggrannhet
  • Begränsad bearbetning
  • Ingen kundsupport
  • Inga tydliga riktlinjer för lagring av data
  • Ingen redaktör för onlineplattformen
  • Begränsade möjligheter för export

Txtplays betalda tjänster för tal till text

  • Hög noggrannhet
  • Obegränsad bearbetning
  • Kundsupport
  • Tydliga riktlinjer för lagring av data
  • Redaktör för onlineplattformen
  • Nästan obegränsade möjligheter för olika alternativ för filexport