Днес, 18 февруари, навръх 151-ата годишнина от гибелта на Апостола на свободата Васил Левски, Институтът по информатика, изкуствен интелект и технологии (INSAIT) пусна BGGPT-7B-Instruct-v0.1, първият безплатен и отворен езиков модел от серията BgGPT. Това поставя страната ни сред малкото в света, които разполагат със свой собствен езиков модел.
Според INSAIT, моделът, който е базиран на Mistral-7B от френската компания Mistral, “показва по-добри резултати от модели с подобен размер като LLaMA2-7b и Mistral-7B, във всички стандартни тестове на български език”. Нещо повече, в тези тестове той превъзхожда дори по-големи модели като Mixtral-8x7B-Instruct-v0.1, който е около 6,5 пъти по-голям и е на нивото на GPT-3.5 от OpenAI.
BGGPT-7B-Instruct-v0.1 е специално разработен да разбира и обработва българския език, като за целта INSAIT са използвали множество източници на данни, в това число информация от български уебсайтове и специализирани набори от данни на българския език, събрани от институтът. За да се подобрят уменията на модела за обработка и разсъждаване както на български, така и на английски език, INSAIT са използвали допълнителни популярни набори от данни на английски език. В резултат на този подход за обучение BGGPT-7B-Instruct-v0.1 показа добри резултати не само на български, но и на английски език.
Моделът е достъпен в HuggingFace под лиценз Apache 2.0 (подходящ за комерсиални цели), като INSAIT заяви, че през следващите седмици ще пусне подобрени модели от серията BgGPT.
Също така, миналия месец INSAIT обяви, че на 3 март – националния празник на България, ще стартира BgGPT Chat – чатбот, подобен на ChatGPT, който ще бъде безплатен за всички българи.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!
Споделете: