• Huvudmeny

30 januari 2013

Digitaliserade böcker möjliggör spännande språkforskning

Efter att Google digitaliserat 4 procent av världens böcker och offentliggjort dem i form av en sökbar korpus, är det nu möjligt att titta på språkliga fenomen som tidigare inte gått att undersöka.

Över 5 miljoner böcker och 500 miljarder ord finns i den databas som Google har skapat genom att digitalisera cirka 4 procent av världens böcker. Hela 361 miljarder av orden är engelska, vilket ger språkforskare unika möjligheter att följa språkets utveckling från 1500-talet och framåt.

En forskare i Slovenien har använt korpusen för att ta reda på de populäraste 1-, 2-, 3-, 4- och 5-ordiga fraserna mellan åren 1520 och 2008. Resultaten finns publicerade på hans webbplats, där man exempelvis kan läsa att den populäraste femordsfrasen år 1520 var ”the pope and his followers”.

Läs mer i Technology Reviewlänk till annan webbplats


Uppdaterad 13 februari 2014