Tilltalsbloggen

Att göra AV till data

I februari 2018 stod Kungliga biblioteket värd för en heldag med fokus på automatiserad informationsutvinning ur inspelat ljud och rörliga bilder. Kan sådan teknik kanske användas i förvaltningen av audiovisuella (AV) samlingar i kulturarvssektorn?

Traditionellt har den här typen av material krävt manuell klassificering, indexering och transkribering. Det är resurskrävande och förutsätter dessutom tillgång till ofta obsolet teknisk utrustning. För små organisationer är det nästan omöjligt att lösa hårdvara och teknisk kompetens, för stora samlingar å andra sidan blir kostnaden orimligt hög. Att manuellt transkribera KB:s AV-samlingar skulle t ex kräva över 100 000 årsverken, och det är ju inte gratis.

Utvecklingen av automatiserade, digitala metoder för extrahering av text och metadata ur AV-samlingar ger i det perspektivet helt revolutionerande nya möjligheter. Intresset för materialen är stort bland både forskare och allmänhet, och den tekniska utvecklingen går allt snabbare. Potentialen i analys, bearbetning och spridning av AV-innehåll är enorm, men fortfarande i långa stycken underutnyttjad. Under konferensen presenterades flera forskningsprojekt och redan implementerade lösningar, med visst fokus på etermedia och i synnerhet då nyhetssändningar och andra aktualitetsprogram som varit så präglande för våra samhällen under det senaste seklet.

Richard Wright: Facts före fiction

Richard Wright, med lång erfarenhet från forskning och utveckling på BBC, betonade det stora allmänintresset för audiovisuella material och uppmanade åhörarna att i första hand försöka publikt tillgängliggöra ”facts” som bör vara mer lätthanterligt upphovsrättsligt än ”fiction”. Richard diskuterade också svårigheter och utmaningar i automatiseringen. Möjligen är det t ex relativt lätt att lära en datamodell känna igen vissa element i en bild (vad syns på bilden?), men betydligt svårare att automatisera kontextualisering och relevans (vad handlar den om? hur hänger den ihop med annat?).

Jens Edlund: Tänk igenom urvalet

Jens Edlund, docent på KTH, talade om betydelsen av att göra genomtänkta urval. Man vill förstås välja det intressantaste, men det är ju ofta svårt att identifiera innan man lyckats skapa en överblick över helheten. Därför är man ofta utlämnad till att på olika sätt slumpa instanser för transkribering, och det är viktigt att göra det på ett systematiskt sätt och dokumentera sina urvalskriterier. Man måste också lära sig leva med att resultatet av automatisk taligenkänning (ASR) ofta blir – i första steget – otillfredsställande. Det kan sedan förbättras avsevärt genom iterativ utveckling där man rättar utfallet manuellt och tillför mer data för modellen att tränas på. Jens påminde också om att AV-källor – och talat språk i allmänhet – är mer än bara text i maskeradkostym. Ren text-transkribering kan aldrig fånga den rika komplexiteten i mänskligt tal eller interaktionen kring ett middagsbord. Men den är ändå värdefull, och vi måste ju använda tekniken som den ser ut idag för att göra den bättre till i morgon.

Lauri Saarikoski: Även dåliga resultat är bra resultat

Även Lauri Saarikoski, utvecklingschef på finska YLE, tryckte på att maskinerna kan vara till nytta även då de ger ”fel” resultat, i synnerhet om felen är konsekventa. Vissa problem är direkt kopplade till brist på data, och där är finska språket ännu mer underförsörjt än det svenska. Mer data behövs alltid. Det är dock ingen katastrof om resultatet av ASR blir dåligt eftersom det inte är tänkt att läsas av mänskliga ögon, utan snarare att bearbeta med andra språkverktyg och lägga till grund för ytterligare steg i tjänsteutveckling etc. Tänk också på att tekniken ibland funkar bäst om den kombineras med manuella insatser i form av verifiering etc och att det är viktigt att hantera förväntningar hos medarbetare/användare på ett strategiskt sätt. Vill vi t ex effektivisera befintliga arbetsflöden eller pröva något helt nytt? Vad är möjligt, enkelt, jättesvårt att lösa?

Richard Ranft: Stora möjligheter och nya problem

Richard Ranft, AV-chef på British Library, berättade om försök med semi-automatiserad metadatasättning på BL:s stora (och växande) AV-samlingar för att på olika sätt underlätta registrering och orientering. Möjligheterna är stora, men reser som vanligt också nya problem. Transkriberar man innehåll ställs man t ex inför nya rättighetsfrågor. BL vill gärna göra sina transkriberingar fritt och öppet tillgängliga för alla, men både mediebolag och involverade tjänsteföretag kan ha andra idéer. Sen tillkommer dessutom frågan om vem som ska ta ansvar för spridning av eventuellt etiskt känsliga uppgifter och rena felaktigheter. Richard presenterade också erfarenheterna av att i projektet Save Our Sounds. Länk till annan webbplats. involvera publiken i att registrera grunddata om bibliotekets inspelningar. Det är till konkret, praktisk hjälp, men måste också ses som ett sätt att involvera medborgarna i verksamheten och etablera en breddad känsla av ägarskap till samlingen.

Will Crichton: Data mining på 70 000 timmar nyheter

Stanford university arbetar just nu med att testa data mining på 70 000 timmar TV-nyheter, på engelska (vilket innebär tillgång till välfungerande talteknologiskt stöd). Will Crichton. Länk till annan webbplats. som är doktorand i forskningsprojektet, kunde berätta om hur de provat olika analysmetoder på sina väldiga mängder data. Projektet är pågående men redan nu är det möjligt att väga samman resultat från texttranskribering, bild- och ljudanalys och därigenom sortera och segmentera källorna så att det blir möjligt att titta närmare på sådant som genusrepresentation, bildval kopplat till ordval, andel studio/exteriörinspelning, reklam/annat etc. ”TV news matters! Scale matters! Scale helps understand systemic bias!

Uwe Kühirt: Metoder för att analysera äldre filmer

Uwe Kühhirt, chef för metadata-avdelningen vid Fraunhofer Institute, gav en inblick i samarbetsprojektet I-media-cities. Länk till annan webbplats. (2016-2019) där nio filmarkiv och fem forskningsinstitutioner samverkar för att hitta bättre metoder för att orientera i och analysera (äldre) film/videomaterial från ett tiotal europeiska länder. Projektet har testat redan befintliga bildverktyg på videorutor, och även prövat sådant som video motion analysis (som följer hur kameran eller avbildade personer rör sig) och object detection/recognition (igenkänning av t ex ansikten). I planen ingick också automatiserad igenkänning och klassificering av 55 historiska byggnader, men de involverade arkiven har haft svårt att lämna tillräckligt med underlag så deras data har kompletterats med andra öppna bildresurser för att träna modellerna. Projektet slutrapporteras våren 2019 och verktyg och metodstöd kommer då att finnas tillgängliga för en bredare krets.

Mats Jönsson: Kräver samarbete

Avslutningsvis talade Mats Jönsson, professor i filmvetenskap vid Göteborgs universitet, utifrån ett annat pågående och mångvetenskapligt forskningsprojekt, GPS400 Länk till annan webbplats.. Mats förklarade varför det är viktigt för honom som humanist att ha tillgång till AV som visar Göteborg även om själva inspelningarna förvaltas på annan ort (läs Stockholm), och varför materialet kräver samverkan med specialister inom andra discipliner. Arbetet med Göteborgsfilmer från Filmarkivet. Länk till annan webbplats. väcker och besvarar ständigt nya frågor i en växelverkan mellan teknisk/kvantitativ och mer kvalitativ analys­metod. ”Vi har gått från att fråga oss varför vi gör det här, till: Varför inte?” Amatörmaterialet är extra intressant och forskargruppen vill bl a titta på hur det eventuellt skiljer sig från kommunens mer officiella och upputsade bild av staden. Ny insamling ingår också i planerna och alltsammans kommer så småningom att visas i ett slags tidsmaskin på Götaplatsen i samband med stadens 400-årsjubileum 2021.

Sammanfattning och slutsatser

Johan Oomen, chef för forskning och utveckling på Beeld en Geluid (Netherlands Institute for Sound and Vision), hade åtagit sig den omöjliga uppgiften att sammanfatta dagen, och han gjorde det med den äran. Först skrämde han upp oss genom att visa hur det nu är möjligt att fabricera falsk video genom att montera ihop och synka visuellt material med syntetisk tal. Creepy indeed! För övrigt pekade Johan ut tre områden som han menar förtjänar mer uppmärksamhet:

  • Vi behöver smartare upphandling av verktyg/mjukvara efter separata förhandlingar med flera leverantörer. Sektorn behöver utveckla nya affärsmodeller och mer kreativa sätt att stödja opensource-lösningar. Titta t ex på holländska KBlabs Siamese. Länk till annan webbplats. som kopplar samman opensource-mjukvara med fritt nedladdningsbart material från public service TV.
  • Vi behöver mer användarvänliga presentationer och navigationslösningar. Ta user experience (UX) på allvar! Välj bättre, anpassa befintliga eller utveckla vid behov nya gränssnitt. Titta t ex på Radiogarden. Länk till annan webbplats. där användaren i princip orienterar genom att snurra på en jordglob.
  • Vi behöver bättre lösningar för crowdsourcing, som ger stabil win/win för både kulturarvssektorn och enskilda deltagare. Försök engagera även smalare segment av publiken med djup kunskap om mer avgränsade områden, i ett slags nisch-sourcing. Titta till exempel på Rijksmuseum som bl a samarbetat med ornitologer som kan känna igen fågelarter i äldre måleri.

Det finns alltså, som vanligt, mycket kvar att göra. Det är bra att KB hjälper oss att hitta nya vägar framåt!

/Johanna Berg