Новите модели на OpenAI – безпрецедентен скок в развитието на изкуствения интелект

В последния ден на своята коледна кампания OpenAI представи „о3“ – ново поколение „разсъждаващи“ модели, които предизвикаха вълна от реакции както в технологичната общност, така и извън нея. Серията включва два модела – „o3“ и „o3 Mini“, които демонстрират значително подобрение в сравнение с предишното поколение, особено по отношение на способността за решаване на сложни задачи и адаптиране към нови предизвикателства.

„o3-mini“ се очаква да бъде пуснат публично към края на януари 2025, докато o3 ще премине през по-продължително тестване преди публично разпространение

„o3″ демонстрира изключителни резултати в някои от най-трудните сравнителни тестове в области като програмиране, математика, биология, физиката и химия. В програмиране моделът достига рейтинг от 2727 точки на състезанията Codeforces, нареждайки се в топ 200 на най-добрите програмисти в света.

Постиженията в областта на математиката са не по-малко впечатляващи, особено в изключително сложния тест Frontier Math Benchmark на EpochAI. Той съдържа задачи, за чието решаване са необходими часове или дни дори на носителите на Филдсовия медал – най-престижната награда в областта на математиката. На този тест o3 успява да реши 25.2% от задачите – безпрецедентен скок спрямо предишния рекорд от едва 2%.

При тестове в областта на биологията, физиката и химията (GPQA Diamond), o3 достига 87.7% успеваемост, значително надминаваща средното ниво на докторите в съответните области.

Най-изненадващият резултат обаче е представянето на „o3“ в бенчмарка ARC-AGI – специален тестови набор, разработен за оценка на способността за адаптация към нови, непознати задачи, и считан за ключов индикатор за напредъка към изкуствен общ интелект (AGI). На този тест, при стандартна изчислителна мощност, моделът достига 75.7%, а при увеличена – впечатляващите 87.5%. За сравнение, бяха необходими цели четири години развитие на GPT моделите, за да се премине от 0% при GPT-3 през 2020 г. до едва 5% при GPT-4o през 2024 г. В контраст, „o“ серията за няколко месеца успя да увеличи резултата до впечатляващите 87.5%.

„Това е изненадващ и важен скок в AI способностите, показващ безпрецедентна способност за адаптация към нови задачи, която никога досега не е била наблюдавана при GPT моделите“, споделя Франсоа Шоле, водещ експерт в областта на изкуствения интелект и създател на тестовия набор ARC. Според него, o3 може да преобърне представите ни за възможностите на изкуствения интелект.

Шоле обяснява, че досегашните модели можеха да постигат високи резултати само при задачи, които са били част от данните им за обучение, но не можеха да се адаптират към нови ситуации или да усвояват нови умения в движение – с други думи, липсваше им гъвкав интелект.

„За да се адаптираш към новости, са ти нужни две неща“, пояснява той. „Първо, нужно ти е знание – набор от преизползваеми функции или програми, от които да черпиш. Традиционните модели имат достатъчно от това. Второ, нужна ти е способността да комбинираш тези функции по нов начин, когато се сблъскаш с непозната задача – да създадеш нова програма, която моделира конкретния проблем. Досега моделите не притежаваха тази способност. Серията ‘o’ променя това.“

За разлика от традиционните езикови модели, които работят на принципа „запомняне, извличане, прилагане“, „o3“ използва революционно нов подход, подобен на този в шахматната програма AlphaZero, твърди Шоле. При решаване на задача, системата методично изследва различни възможни решения, като генерира и изпълнява собствени програми в реално време, използвайки т.нар. „вериги от мисли“ (Chain of Thought). Този процес наподобява начина, по който AlphaZero анализира шахматни позиции, търсейки най-добрия ход чрез изследване на множество варианти.

Въпреки това този метод изисква значително по-голяма изчислителна мощност. Например, при изпълнението на ARC теста със стандартна конфигурация (low-tuned) всяка задача струва около $17–20, обработвайки между 33 и 111 милиона токена (дума или част от дума). При повишена изчислителна мощност (high-tuned) системата използва 172 пъти повече ресурси, обработвайки 5.7 милиарда токена, а цената за една задача може да достигне няколко хиляди долара.

Макар че новият модел на OpenAI демонстрира впечатляващи резултати в едни от най-трудните тестове, експертите са предпазливи в оценките си относно достигането на истински изкуствен общ интелект (AGI). Шоле подчертава, че „o3“ все още се затруднява с някои елементарни задачи и показва фундаментални различия от човешкия интелект. Въпреки това моделът демонстрира нов подход към решаването на проблеми, който може да промени начина, по който AI системите се справят с непознати предизвикателства. Както отбелязва Шоле, това не е просто поредното подобрение, а навлизане в „нова територия, която изисква сериозно научно внимание.“

Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!

Остави коментар

Споделете:

Like this:

Luma AI представи Ray3 – „разсъждаващ“ видео

AI системите на OpenAI и Google завоюваха

Най-големите холивудски студиа заведоха дело срещу китайската

Сам Алтман: ChatGPT ще защитава децата, но

Абонирайте се за нашите седмични бюлетини