Ta Reda På Kompatibilitet Med Stjärntecken
De bästa automatiska transkriptionsverktygen för journalister
Teknik Och Verktyg

Siri har precis fyllt sex år. Alexa har precis fyllt tre år. Om vi kan fråga våra telefoner efter vädret i Albuquerque och tvinga en plastcylinder i våra vardagsrum att läsa Washington Post högt, varför transkriberar vi fortfarande intervjuer för hand?
Tja, det visar sig att vi egentligen inte behöver det. Automatiska transkriptionsverktyg har funnits på marknaden ett tag nu, och de blir äntligen bra. Det tar nu bara några minuter, och några dollar, att ladda upp ljud eller video till en webbplats och få en ganska omfattande utskrift.
Men som alla verktyg är vissa bättre än andra. Vi testade (eller försökte testa — mer om det senare) åtta av de mest populära transkriptionsverktygen riktade till journalister, inklusive Drakdiktering , Glad skribent , oTranskribera , rekord , Varv , Sonix , Trint och YouTube. Vi körde varje verktyg genom en mängd olika verkliga scenarier och experimenterade med hur var och en klarade sig mot en journalists typiska användning.
Även om inget av verktygen var perfekt, utpekade det ena det andra som det bästa i kategorin.
Vårt val
En kombination av noggrannhet, funktioner och användarvänlighet gör Trint till det bästa valet för automatisk transkription för journalister. Även om det inte var det mest exakta, mest funktionsrika eller det billigaste verktyget vi provade, hjälper dess utskriftsredigeringsverktyg och förmågan att passa lite mer sömlöst in i en journalists arbetsflöde det att göra en vinst över sina konkurrenter. Läs vidare för att se varför.
Experimentet
Som du ser är noggrannheten för dessa verktyg låga. Det beror på att vi gjorde vårt bästa för att förvirra dem.
Först, för att spegla ett brett spektrum av människor, röster och accenter, spelade vi in vårt provljud med fyra deltagare. De inkluderade:
- Alexios Mantzarlis , Poynter-fakulteten och chef för International Fact-Checking Network, som kommer från Rom och beskrev sig själv som att han hade en läsk och 'några roliga ord som blandar brittiska, italienska och udda amerikanska accenter'
- söta buketter , programledare för International Fact-Checking Network, som kom till Poynter från Mexico City i september
- Kristen Hare , en reporter på Poynter, som tycker att hon låter 'lite dalflickaktig' när hon lyssnar på sig själv på inspelningar
- Jag, och även om Kristen sa att jag har en 'buffaloaccent', tror jag att min benägenhet att mumla, prata för snabbt och hoppa över delar av ord förmodligen visar sig vara mer utmanande för transkriptioner (att spela in dig själv i väntan på att bli transkriberad leder tydligt till lite själv- reflexion.)
Kristen gick med oss via Google Hangouts/YouTube Live ( avslöjande: ett bidrag från Google News Lab finansierar delvis min position ), som de flesta automatiska transkriptionsverktyg öppet varnar för. Ljud från en telefon eller videochatt verkar vara allmänt svårt för dem att hantera.
För att tortera algoritmerna ännu mer läser vi också avsnitt i mycket snabbare takt än vad vi brukar tala, Dulce och Alexios talade en mängd olika främmande språk (italienska, spanska, franska och grekiska), vi uttalade så många egennamn som möjligt (Apalachicola) , Michael Oreskes och olika grekiska öar, för att nämna några), blev kreativa med Urban Dictionary (en kappsäck av Paul Manafort och ett grovt ord som beskriver tillståndet i hans rättsliga situation) och pratade om varandra med viss frekvens.
Vi spelade in vårt 14-minuterstest i Poynters webinarstudio och avbröts av ljudet från minst ett högljutt plan ovanför (det finns en flygplats några kvarter bort), ett utryckningsfordon och ropet från Kristens telefon.
Vi spelade in ljudet på tre sätt:
- Med en Zoom H4nPro handhållen mikrofon, placerad mellan oss
- Med min iPhone 6S Plus, använd Recordly-appen för att spela in, placerad bredvid Zoom
- Med en privat YouTube Live, vilket var hur Kristen gick med oss
Vi laddade sedan upp ljudet till varje verktyg och höll reda på hur lång tid det tog att transkribera dem. Vi normaliserade de resulterande transkriptionerna med hjälp av Microsoft Word, tog bort tidsstämplar och såg till att talarnamnen var kongruenta. Som en kontroll transkriberade jag ljudet själv (med oTranscribe) och lyssnade sedan igenom flera gånger för att kontrollera om det var fullständigt korrekt. Vi provade också Rev, en betaltjänst som använder mänskliga transkriptorer snarare än algoritmer, för att se hur det gick.
Vi testade en mängd olika verktyg för att jämföra dokument för att se vilket som fungerade bäst Copyscape som det mest sunda alternativet. Vi jämförde transkriptionerna som genererades av verktygen och tjänsterna med den 100 procent korrekta som jag skapade med oTranscribe.
Några ytterligare anmärkningar:
- Ljudet från Zoom visade sig vara den bästa kvaliteten, så vi använde det för de flesta av våra tester. Recordly-appen verkar inte acceptera ljud inspelat från andra källor, så det är ett undantag från denna process. Vi laddade inte heller upp Zoom-ljudet till YouTube, utan förlitade oss istället på ljudet från YouTube Live-inspelningen. Jämförelsen av äpplen och apelsiner gör detta experiment mindre än vetenskapligt men mer i linje med hur journalister faktiskt skulle använda dessa verktyg i den verkliga världen.
- Även om det är ett populärt verktyg, kunde vi inte testa Dragon Dictation, eftersom det inte fungerar på iOS 11. Vi kommer att uppdatera den här recensionen när och om dess utvecklare fixar det här problemet.
- Vi nådde inte ut till något av dessa företag innan vi testade, så det fanns ingen speciell behandling eller back-end-finagling av transkriptioner. Trint, Sonix och Recordly erbjuder begränsade gratisminuter för nya användare, så vi utnyttjade dem för experimentet. Vi använde en icke-reporterkollegas kreditkort för Happy Scribe och nämnde inte Poynter eftersom jag har korresponderat med dess grundare tidigare. Och vi betalade fullt pris för Revs mänskliga transkription. YouTubes textningstjänst och oTranscribe är alltid gratis.
- Det finns många, många fler automatiska transkriptionsverktyg som vi inte inkluderade i denna recension. Vi försökte fokusera på de som journalister har frågat oss om. Om du tycker att vi orättvist hoppat över en, låt oss veta så uppdaterar vi recensionen.
Avskriftskvalitet (vinnare: Happy Scribe)
Det verkar som om de människor som är oroade över upproret om artificiell intelligens har åtminstone några år på sig att förbereda sig, eftersom den enda mänskliga transkriptionstjänsten vi testade slog automatiska transkriptioner med stor marginal.
Rev fick 82 procents noggrannhet, där den mänskliga översättaren mestadels misslyckades med att fånga främmande språk (vilket, för att vara rättvis, är en separat tjänst), några egennamn, lite överhörning, några slangord och bitar av mumlande. Även om de andra verktygen för det mesta missade dessa saker också, noterade de mänskliga transkriberarna på Rev åtminstone saker som '[ohörbart]' och '[crosstalk]' och '[främmande språk]', som var användbara platshållare för senare korrigeringar.
Även med de saknade bitarna är Rev-utskriften helt läsbar och sammanhängande. Om du inte var där för det första samtalet, kan du få kärnan i vad vi pratade om bara genom att läsa det.
Den näst mest korrekta transkriptionen var YouTube. Webbplatsen för videovärd skapade automatiskt bildtexter för vår livevideo på YouTube som var 72 procent korrekt. Men även med bara en 10-procentig nedgång i övergripande kvalitet är transkriptionen betydligt mindre läsbar än Revs eftersom YouTube inte tillhandahåller några skiljetecken eller högtalarsegmentering. Bildtexterna finns som ett massivt textblock. Utan att para ihop det med ljudet skulle det vara nästan omöjligt för någon som inte var en del av konversationen att förstå vår konversation.
Det finns andra nackdelar med YouTubes erbjudanden, men vi kommer att prata om dem när vi kommer till funktioner.
Happy Scribe visade sig vara det mest exakta dedikerade icke-mänskliga transkriptionsverktyget, med 62 procents noggrannhet i vårt experiment. Verktyget varnar på sin uppladdningssida för att 'undvika kraftigt bakgrundsljud, 'undvika tunga accenter', 'undvika Skype- och telefonintervjuer' och 'hålla mikrofonen nära högtalaren', vilket vi plikttroget ignorerade.
Transkriptionen är nästan exakt på platser där jag talade, särskilt när det inte förekom någon överhörning och jag inte använde egennamn, men kämpade ganska mycket med att transkribera Dulce, Kristen och Alexios. Det bröt in olika talare i nya stycken på vissa ställen men misslyckades på andra. Den övergripande utskriften varierar mellan helt sammanhängande på vissa ställen och bisarrt osammanhängande på andra, till exempel när den transkriberade Alexios och sa 'låt mig öppna Urban Dictionary och vi kan gå igenom några av dem' som 'Jag menar även i stadslexikonet flickor är nära .”
Trint erbjöd liknande resultat, med 61 procents noggrannhet. Det trasslade till på många av samma ställen, fumlade med accenter, ljud från YouTube och avsnitt med överhörning eller tyst tal. Det har dock inte skrivits fel på exakt samma sätt som Happy Scribe. Urban Dictionary-satsen från ovan dök upp som 'Jag menar även i stadslexikonet kan vi gå igenom dem.'
Sammantaget är Trints avskrift något lättare att läsa än Happy Scribes eftersom det gör ett bättre jobb med att skilja talare och dela upp dem i nya stycken. Det är inte perfekt, men det ger mycket tydlighet när det fungerar.
Sonix visade sig vara näst mest exakt med 50 procent. Sonix fungerade något bättre än Happy Scribe och Trint när en enda högtalare pratade högt. Men vilken mängd som helst överhörning, bakgrundsljud eller till och med skratt – allt som sannolikt kommer att dyka upp i någon verklig användning av verktyget – verkade förvirra det mer än de andra. Den fångade Urban Dictionary-satsen som 'att öppna i urban dictionary och vi kan gå igenom några av dem.'
Precis som de andra verktygen försökte Sonix dela upp högtalarna i olika stycken, men det verkade vara något sämre på det.
Recordly var det minst exakta av de automatiska transkriptionsverktygen, med 48 procents noggrannhet. Den fångade Urban Dictionary-satsen som 'låt mig öppna den urbana ordboken och vi kan. Gå igenom några', vilket inte är dåligt, men den textbiten är inte representativ för resten av utskriften. Precis som YouTube är Recordlys transkription ett gigantiskt textblock. Till skillnad från YouTube lägger den till skiljetecken, men mindre ofta och med lägre noggrannhet än de andra verktygen.
Recordly-transkriptet är det minst användbara ur sitt sammanhang.
Sammantaget kom den bästa utskriften från min egen hand med oTranscribe. Rev blev den bästa utskriften som jag inte behövde transkribera själv. Men det här är en recension av automatiska transkriptionsverktyg, och i den kategorin lyckades Happy Scribe knappt komma ut från Trint för att komma ut på topp.
Funktioner (Vinnare: Sonix)
Några saker verkar vara industristandarder för automatiska transkriptionsverktyg. Möjligheten att spela upp uppladdat ljud är uppenbar. Alla verktyg tillåter användare att exportera transkript i olika format.
De webbläsarbaserade verktygen (vilket betyder alla utom Recordly) erbjuder också en gemensam svit. Alla tillåter användare att klicka på olika punkter i texten och hoppa direkt till den delen av inspelningen. De har alla alternativ för att spela upp ljud i en långsammare hastighet (med kortkommandon eller genom att pilla med inställningar), manuellt redigera transkriptioner, ladda upp video utöver ljud och lagra transkriptioner för senare användning.
Trint går ett steg längre och har en visualiserad vågform av ljudet längst ner i transkriptionen som användare kan hoppa igenom efter behag. Den har också inbyggda verktyg för att hitta och ersätta, markera eller stryka ut text. Användare kan lägga till en lista med talare till verktyget och bifoga sitt namn till varje stycke. Den har också en praktisk funktion för att e-posta en utskrift med ett klick.
Sonix har alla dessa verktyg (förutom den interaktiva vågformen) och några till. De mest användbara är 'förtroendefärger', som tilldelar olika färger till ord som Sonix är mindre säker på; en ljudkvalitetsbedömare, som berättar hur säker Sonix är på sin transkription; och automatiserad högtalaridentifiering, en betafunktion som försöker identifiera olika talare och tilldela dem ID.
I vårt test identifierade Sonix bara två olika högtalare, så det här verktyget behöver lite arbete, men det är fortfarande oerhört användbart.
Recordly, den enda appen (endast iOS) i gänget, erbjuder de minsta funktionerna. Det är ganska mycket en rekord-och-vänta-upplevelse. Transkriptet levereras i ett format som liknar Apples inbyggda anteckningsapp, med begränsad redigeringsfunktion. Det tillåter också användare att exportera ljudet eller texten till en annan app.
Även om Trints hitta-och-ersätt- och vågformsfunktioner är användbara vid korrigering av transkriptioner, ger Sonix funktioner viktig transparens till transkriptionsprocessen. Och även om betan för högtalaridentifiering inte är helt tillförlitlig, är det ett ambitiöst verktyg som bara borde bli bättre härifrån.
Timing (Vinnare: Happy Scribe, Trint och rekord)
Här lyser automatisk transkription. Alla verktyg gav en avskrift på färre minuter än längden på ljudfilen vi skickade in. Skillnaden mellan Happy Scribe (fem minuter), Trint (sex minuter) och Recordly (sex minuter) var försumbar, men Sonix tog lite längre tid (11 minuter). (Uppdatering: En representant från Sonix nådde ut för att säga att dess hastighet är i linje med de andra verktygen när högtalaridentifieringsfunktionen är avstängd.) I en verklig miljö kan detta vara en avgörande skillnad, särskilt med längre transkriptioner.
YouTube är lite av ett mysterium här. För denna transkription tog det bara några minuter för de automatiska bildtexterna att visas. I tidigare erfarenheter har vi funnit att det kan variera ganska mycket hur lång tid det tar för dem att dyka upp. Eftersom YouTube egentligen inte är tänkt att användas på det här sättet är vi inte säkra på hur lång tid det vanligtvis tar.
Det tog ungefär fyra timmar och 15 minuter för Revs mänskliga transkriberare att avsluta sin transkription. Det tog ungefär hälften av det för mig att göra det själv med oTranscribe, men inte utan flera pauser, Spotifys Djupt fokus spellista och två liter kaffe.
Prissättning (vinnare: rekord)
Du kan inte slå gratis (YouTube, oTranscribe), men när det kommer till de dedikerade automatiska transkriptionsverktygen varierar kostnaden kraftigt. För att bestämma det bästa priset måste du överväga hur ofta du kommer att använda verktyget.
Sonix är den dyraste, med en basplan som börjar på $15 per månad plus $8 för varje timme av transkriberat ljud. Men verktyget ger en rejäl rabatt på 33 procent för att betala årligen istället för månadsvis.
Trint erbjuder också planer som börjar på 15 USD i timmen för transkriptioner som laddas upp när du betalar, eller 40 USD i månaden för upp till tre timmars transkriberat ljud. Ytterligare transkriptioner kostar strax norr om 13 USD per timme.
Happy Scribe kostar 10 cent per minut av uppladdat ljud. För mindre matte-benägna typer är det $6 per timme.
Recordly är det i särklass billigaste automatiska transkriptionsalternativet, till knappa 2 USD per timme, med den första timmen gratis.
Föga överraskande kostar de mänskliga transkriberarna på Rev mer än de andra verktygen. Vårt 13-minutersklipp kostade $14 att transkribera, och vi betalade $3,50 mer för tidsstämplar. Ändå, den billiga relativa kostnaden för arbetstimmar som är involverade får oss att undra var Revs transkriberare är i världen och hur väl de får kompensation.
Användarvänlighet (vinnare: Trint)
Inget av dessa verktyg är svårt att använda. Du laddar upp en fil till var och en (eller spelar in ljud med den, i Recordlys fall) och en tid senare skickar den en länk till en redigerbar transkription.
Trint tar ett stort steg bortom filuppladdningar och accepterar ljud eller video från en mängd olika källor, inklusive Dropbox, Google Drive och FTP, och tillåter till och med användare att bara ange en länk. Detta är unikt bland de verktyg vi testade. Trint ställer också några användbara frågor om bakgrundsljud, överhörning och mer innan uppladdningen börjar. Det kommer inte att fixa en inspelning men är en hjälpsam UX-nick som lär användare hur man spelar in mer transkriberbart ljud i framtiden.
Happy Scribe, Rev, Sonix och Trint skickar alla e-post när transkriptionen är klar, så det finns ingen anledning att sitta och stirra på skärmen.
Poängen
Det är inte det billigaste, och det är inte heller det mest övergripande exakta övergripande transkriptionsalternativet som finns, men Trint knep en vinst som det bästa allroundverktyget av de vi testade.
Företaget, som är drygt ett år gammalt och har fått medel från Riddarstiftelsen (disclaimer: Poynter också tar emot finansiering från Knight) och Googles Digital News Initiative, erbjuder den bästa övergripande kombinationen av funktionalitet, noggrannhet och användarvänlighet.
Endast YouTubes automatiska textningsfunktion, som fick 72 procents noggrannhet, klarade sig betydligt bättre än Trint vid algoritmstyrd transkription. Men YouTube är inte utformat för den typ av transkribering som journalister behöver dagligen och erbjuder inte någon typ av redigeringsfunktion.
Även om den unga startupen Happy Scribe klarade sig något bättre i våra noggrannhetstester med 62 procent och kommer in på ungefär en tredjedel av priset för Trint, saknar den många av de extra funktionerna som gör Trint användbart. Möjligheten att ladda upp från många källor, hitta och ersätta text och talaridentifiering är små men viktiga arbetsflödesverktyg. Om du bara letar efter en snabb och smutsig utskrift kan Happy Scribe vara rätt väg att gå.
Och även om det är sant att dess 61 procent är långt ifrån perfekt, var våra tester lite svårare än de flesta verkliga användningsområden.
Vi testade också Rev, en mänsklig översättningstjänst, och oTranscribe, som erbjuder praktiska verktyg för journalister att transkribera ljud på egen hand. För $1/minut av transkriberat ljud fann vi att Rev var för dyrt för en genomsnittlig journalist att använda regelbundet. Och även om oTranscribe var praktiskt, löser det inte tråkigheten och tidssuget med att transkribera.
Med typiska användningsområden i åtanke är Trint det bästa allsidiga automatiska transkriptionsverktyget för journalister.
Rättelse: Vi har tidigare rapporterat att Sonix inte gör det erbjudande hitta och ersätta verktyg, men det gör det faktiskt. Vi ber om ursäkt för att vi missade det.
Lär dig mer om journalistiska verktyg med Prova detta! — Verktyg för journalistik. Prova detta! drivs av Google News Lab . Det stöds också av American Press Institute och den John S. och James L. Knight Foundation