Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Google представила свою новейшую модель преобразования текста в изображение Imagen 4, с привычным обещанием "значительно улучшенной отрисовки текста" по сравнению с предыдущей версией, Imagen 3. Компания также представила новую расширенную версию под названием Imagen 4 Ultra, предназначенную для более точного следования текстовым запросам за дополнительную плату. Обе модели доступны в рамках платного превью в Gemini API и для ограниченного бесплатного тестирования в Google AI Studio.
Google описывает основную модель Imagen 4 как "ваш выбор для большинства задач" с ценой 0,04 доллара за изображение. Imagen 4 Ultra, в свою очередь, предназначена "для случаев, когда вашим изображениям необходимо точно следовать инструкциям" с обещанием "высококачественных" результатов по сравнению с другими генераторами изображений, такими как Dall-E и Midjourney. Стоимость этой модели увеличена на 50 процентов до 0,06 доллара за изображение.
Компания продемонстрировала ряд изображений, включая трехпанельный комикс, сгенерированный Imagen 4 Ultra, изображающий небольшой космический корабль, подвергающийся нападению гигантского синего… космического ящера? С добавлением звуковых эффектов, таких как "Хруст!" и необъяснимо, "Ха!". Изображение точно соответствовало указанному запросу и выглядело неплохо, напоминая рендеринг мультфильма из 3D-приложения.
Другой запрос звучал так: "вид спереди винтажной туристической открытки для Киото: культовая пагода под цветущей сакурой, заснеженные горы на горизонте, чистое голубое небо, яркие цвета". Imagen 4 выдала изображение точно в соответствии с запросом, хотя и в довольно стандартном стиле, лишенном особого очарования. Еще одно изображение показывало пару туристов, машущих с вершины скалы, а также фейковую "авангардную" фотосессию. Изображения были определенно хорошего качества и точно следовали текстовым запросам, но все же выглядели явно сгенерированными машиной.
Imagen 4 неплоха и действительно кажется небольшим улучшением по сравнению с предыдущей версией, но она не впечатлила меня, особенно в сравнении с лидерами рынка, Dall-E 3 и Midjourney 7. К тому же, после первоначального всплеска энтузиазма, кажется, что общественность устала от изображений, сгенерированных искусственным интеллектом, и основной сферой их применения стали спамные объявления в социальных сетях или внизу статей.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...