Google представи „най-добрия модел за редактиране на изображения в света"

Google DeepMind представи нов модел за генериране и редактиране на изображения, който според компанията поставя нови стандарти в създаването на визуално съдържание с изкуствен интелект.

Моделът, наречен Gemini 2.5 Flash Image, нашумя през последните седмици под псевдонима „Nano Banana“ в платформата LMArena, където днес оглавява класациите за генериране (Text-to-Image) и редактиране (Image Editing) на изображения. По думите на главния изпълнителен директор на DeepMind Демис Хасабис, „Gemini 2.5 е най-добрият модел за редактиране на изображения в света“.

Our new native image generation and editing is state-of-the-art, and ranked #1 in the world. And we're rolling it out for free to everyone today.

You’ve got the tools. Now go bananas. Ideas & inspiration in the 🧵below. pic.twitter.com/mw7XyG5nes
— Google Gemini App (@GeminiApp) August 26, 2025

Най-силната страна на Gemini 2.5 Flash е способността му да запазва идентичността на хора, животни или предмети в различни сцени – нещо, което досега беше сериозно предизвикателство за конкурентни решения като GPT-4o и FLUX.1 Kontext. Достатъчно е да подадете референтни изображения и моделът ще генерира нови визуализации със същата идентичност – независимо от позата, стила, осветлението или средата.

Моделът поддържа и „стилов трансфер“, при който даден дизайн или текстура може да бъде пренесен от едно изображение върху друго, както и поетапни редакции, позволяващи постепенно надграждане на сцена чрез инструкции на естествен език. Например, можете да започнете с празна стая, да пребоядисате стените, след това да добавите библиотека, мебели или масичка за кафе – като през цялото време Gemini променя само избраните елементи, без да нарушава останалата част от изображението.

Моделът също така позволява комбиниране на няколко снимки или отделни обекти в нова сцена. Например може да съчетаете своя снимка с тази на кучето си и да получите ново изображение, в което сте заедно.

Моделът ще бъде достъпен за всички потребители на приложението Gemini, а разработчиците могат да получат достъп чрез Gemini API, Google AI Studio и Vertex AI. Всяко изображение включва както видим воден знак, така и невидим (SynthID), за ясно обозначаване, че съдържанието е генерирано от изкуствен интелект.

Компании като Adobe, WPP, Freepik, Figma и Leonardo.ai вече обявиха, че интегрират модела в своите платформи, определяйки го като „сериозен ъпгрейд“ и „истинска промяна в индустрията“, която ще отвори път към нови творчески и бизнес приложения.

Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!

Остави коментар

Google представи „най-добрия модел за редактиране на изображения в света“

Like this:

Споделете:

Like this:

Luma AI представи Ray3 – „разсъждаващ“ видео

AI системите на OpenAI и Google завоюваха

Най-големите холивудски студиа заведоха дело срещу китайската

Сам Алтман: ChatGPT ще защитава децата, но

Абонирайте се за нашите седмични бюлетини