META lanserar nytt språkmodellprojekt “LLaMA”

0
NASA GOES-13 Full Disk view of Earth December 17, 2010 by NASA Goddard Photo and Video is licensed under CC-BY 2.0

META, företaget bakom Facebook och Instagram, har nyligen lanserat en ny språkmodell kallad “LLaMA”. Företaget betonar att modellen är en mindre version av andra stora språkmodeller, vilket innebär att den kräver mindre resurser och mindre beräkningskraft.

Modellen är tränad på text från 20 olika språk och förutsäger nästa ord i en sekvens för att skapa text. META har också betonat sin öppna forskningsinriktning och åtagande att utveckla AI på ett ansvarsfullt sätt. Endast forskare inom AI ges tillgång till modellen och den kommer att släppas under en icke-kommersiell licens med fokus på forskningsanvändning.

Det är ännu oklart hur LLaMA kommer att stå sig mot andra AI-försök i en snabbt överfull bransch. Trots detta, har META en fördel i att de betonar en öppen och transparent forskningsorienterad strategi, som kan hjälpa till att undvika problem med bias, giftiga kommentarer och hallucinationer som andra modeller har haft.

Även om det är för tidigt att säga vad META:s LLaMA kan åstadkomma, finns det stora möjligheter för framtida användning. För dem som är intresserade av att få tillgång till modellen, finns det ett ansökningsformulär som kan fyllas i. Vi ser fram emot att se hur META:s nya projekt kan hjälpa till att forma framtidens AI.

Enligt ett forskningspapper hävdar Meta att den näst minsta versionen av LLaMA-modellen, LLaMA-13B, presterar bättre än OpenAIs populära GPT-3-modell “på de flesta benchmarking-tester”, medan den största, LLaMA-65B, är “konkurrenskraftig med de bästa modellerna”, som DeepMinds Chinchilla70B och Googles PaLM 540B. (Siffrorna i namnen hänvisar till antalet miljarder parametrar i varje modell, en måttstock på systemets storlek och en ungefärlig uppskattning av dess sofistikation, även om dessa två egenskaper inte nödvändigtvis skalar i takt med varandra.)

Efter träning kan LLaMA-13B också köras på en enstaka Nvidia Tesla V100 GPU i ett datacenter. Detta är goda nyheter för mindre institutioner som vill köra tester på dessa system men betyder inte mycket för enskilda forskare för vilka sådan utrustning är oåtkomlig.

Llama, Blenderbot & Galactica

Meta är också en betydande aktör på AI chatbot-scenen och har tidigare släppt sina egna tillgängliga AI-chatbots. BlenderBot kritiserades dock för att helt enkelt inte vara särskilt bra, medan Galactica, som var avsedd att skriva vetenskapliga artiklar, togs offline efter bara tre dagar när den fortsatte att producera vetenskapligt nonsens.

Med LLaMA-kvartetten hoppas Meta förmodligen på en mer positiv respons. “Idag släpper vi en ny toppmoderna AI språkmodell som heter LLaMA som är utformad för att hjälpa forskare att driva sin forskning framåt”, säger CEO Mark Zuckerberg i ett Facebook-inlägg. “Stora språkmodeller har visat stor potential för att generera text, ha samtal, sammanfatta skriftligt material och mer komplicerade uppgifter som att lösa matematiska satser eller förutsäga proteinstrukturer. Meta är engagerade i denna öppna forskningsmodell och vi kommer att göra vår nya modell tillgänglig för AI-forskningsgemenskapen.

NO COMMENTS

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Exit mobile version