Главная » Фриланс и нейросети » Сравнение нейросетей

Рейтинг 6 нейросетей для генерации изображений: кто лидирует по 4 ключевым факторам

Выбор нейросети для генерации изображений часто сводится к субъективным впечатлениям или единичным примерам. Чтобы дать точный ответ, какая модель лучше справляется с разными задачами, необходим системный подход.

Мы провели прямое сравнение разных нейросетей: Шедеврум, Ideogram, Recraft, Flux, Qwen и ChatGPT. Каждой из них был дан один и тот же набор из 9 детальных промптов, охватывающих ключевые жанры: от фотореализма и иллюстрации до сложной композиции.

Цель этого теста — не обзор функций, а сравнение качества результата. Мы оценивали, насколько точно нейросети следуют инструкциям, сохраняют детали и создают эстетически целостное изображение.

В статье вы увидите прямое визуальное сравнение и анализ сильных и слабых сторон каждой модели.

Для теста мы выбрали 9 тематик, охватывающих разные популярные стили и задачи:

  1. Фотореалистичный портрет

  2. Автомобильная фотосъемка в движении
  3. Сказочная иллюстрация

  4. Футуристический городской пейзаж

  5. Натюрморт в живописном стиле

  6. Динамичная фэнтези-сцена

  7. Ретро-футуризм

  8. Макросъемка природы

  9. Особый сложный промпт: композиция с разделением кадра (тест на структурное понимание)

Последний промпт был специально разработан как контрольная задача повышенной сложности для проверки, как нейросети справляются с четким структурным описанием.

Критерии оценки

При анализе результатов фокус сделан на четыре ключевых аспекта:

  • Следование промпту (точность): насколько полно и правильно нейросеть интерпретирует задание, особенно в сложном промпте с авто. Учитываются все указанные элементы и их взаимное расположение.

  • Детализация и качество (техника): оценивается резкость, отсутствие артефактов, проработка мелких деталей и общая чистота изображения.

  • Стилистика и эстетика (соответствие стилю): получается ли у нейросети передать заявленный стиль (например, «сказочность» или «фотореализм») и насколько целостным и гармоничным выглядит итоговое изображение.

  • Креативность (интерпретация): обращаем внимание на интересные и неочевидные трактовки, которые нейросеть добавляла от себя, выходя за рамки буквального следования тексту.

Создание фотореалистичного портрета

Этот тест оценивает, как нейросети справляются с самой сложной задачей — передачей тонких человеческих эмоций, фактуры кожи и «живого» взгляда. Ключевыми критериями станут реалистичность светотени, глубина резкости (боке) и отсутствие артефактов в чертах лица.

Промт для нейросетей: Кинематографичный портрет пожилого рыбака, крупный план. Он смотрит вдаль, в его морщинистом лице и мудрых глазах читается спокойная решимость. Снято на полнокадровую зеркальную камеру с объективом 85mm f/1.4, мягкое боковое освещение от окна, мелкая глубина резкости. Высокая детализация кожи, фотореализм, профессиональное фото.

Пожилой рыбак
ChatGPT
Пожилой мужчина
Ideogram
Flux
Пожилой мужчина в кепке
Recraft
мужчина-азиат в кепке
Qwen
Шедеврум

Создание книжной иллюстрации

Здесь мы проверим способности ИИ к стилизации и созданию теплой, уютной атмосферы. Мы оценим, насколько убедительно модели генерируют целостную иллюстративную сцену с харизматичным персонажем, сказочным освещением и акварельной текстурой.

Промт для нейросетей: Иллюстрация в стиле классической детской книги: маленький лесной дух, похожий на ежика в пальто из листьев, заваривает чай в чайнике-тыкве на пеньке в заросшем мхом лесу. Теплое сияние из тыквы, волшебная, уютная атмосфера. Акварельная текстура, легкая графичность, высокая детализация.

Ежик заваривает чай
ChatGPT
Ежик сидит на пеньке
Ideogram
Ежик сидит рядом с тыквой
Flux
Ежик держит кружку
Recraft
Ежик наливает чай в кружку
Qwen
Ежик пьет чай
Шедеврум

Рендер городского пейзажа в стиле киберпанк

Сравнение переходит в область сложных композиций и создания атмосферы места. Мы посмотрим, какие нейросети лучше передают масштаб, детализацию футуристической архитектуры, эффекты неонового освещения на мокрых поверхностях и общее настроение киберпанк-эстетики.

Промт для нейросетей: Панорамный вид мегаполиса в стиле киберпанк, вид с крыши небоскреба. Бесконечные неоновые вывески, летающие автомобили, мокрый асфальт после дождя. Контровое неоновое освещение, глубокая глубина резкости. Создано в Unreal Engine 5, гиперреалистичный рендер, высокая детализация, разрешение 8K.

Вид с крыши на мегаполис
ChatGPT
Вид сверху на город
Ideogram
Flux
Recraft
Летающие автомобили над ночным городом
Qwen
Вид на дорогу
Шедеврум

Натюрморт в живописном стиле

Тест на понимание художественных стилей и работу со светом. Мы оценим, могут ли модели точно воспроизвести характерную для голландской живописи композицию, драматическое боковое освещение, текстуры материалов (дерево, металл, виноград) и общее «музейное» качество.

Промт для нейросетей: Натюрморт в стиле голландской живописи 17 века: ветхая деревянная таблица, старинная книга в кожаном переплете, потухшая свеча в подсвечнике, виноградная гроздь и серебряный кубок. Драматическое боковое освещение от невидимого окна, глубокие тени, бархатистый фон. Масляная живопись, фактура мазков, музейное качество.

ChatGPT
Ideogram
Flux
Recraft
Qwen
Шедеврум

Эпичная сцена в жанре фэнтези

Задача для нейросетей — создать не просто статичное изображение, а «застывший кадр» из экшн-сцены. Критериями будут динамичность ракурса, убедительность анатомии и движения персонажей, проработка деталей фантастических существ и общая героическая атмосфера.

Промт для нейросетей: Эпичная сцена в стиле фэнтези-концепт-арта: женщина-воительница в сияющих доспехах парит в прыжке над спиной гигантского кристаллического дракона в облачном небе. Динамичный ракурс «снизу-вверх», энергетические следы, торжественная и героическая атмосфера. Цифровая живопись, детализированный арт, кинематографичная композиция.

ChatGPT
Ideogram
Flux
Recraft
Qwen
Шедеврум

Винтажный научно-фантастический постер

Тест на понимание культурных кодов и стилизацию. Мы оценим, как нейросети работают с графической эстетикой середины XX века: лаконичностью композиции плаката, гладкими «космическими» цветами, типографикой и созданием узнаваемого винтажного настроения.

Промт для нейросетей: Постер научно-фантастического фильма в стиле ретрофутуризм 1950-х годов. Гладкий серебристый космический корабль с плавными обводами летит к кольцевой космической станции на фоне яркой стилизованной планеты. Гладкие цвета, винтажная графика, стилизация под старый печатный плакат, легкая зернистость.

ChatGPT
Ideogram
Flux
Recraft
Qwen
Шедеврум

Макросъемка природы

Сравнение точности и внимания к мельчайшим деталям. Мы посмотрим, какая модель лучше передаст физические эффекты (преломление и отражение света в капле воды), текстуру паутины и создаст эффект «целого мира в одной точке» с идеальной глубиной резкости.

Промт для нейросетей: Макросъемка капли росы на паутине ранним утром. Внутри капли, как в линзе, преломляется и отражается весь лесной пейзаж с восходящим солнцем. Солнечные лучи создают радужные блики. Снято на макрообъектив, очень мелкая глубина резкости, невероятная детализация, фотореализм.

ChatGPT
Ideogram
Flux
Recraft
Qwen
Шедеврум

Динамичная автомобильная фотография

Тест на передачу динамики и сложных световых условий. Ключевые критерии: реалистичность размытости скорости, отражений на мокром асфальте, работы неоновой подсветки и общее кинематографичное ощущение кадра, снятого с экстремального ракурса.

Промт для нейросетей: Реактивный синий ретро-футуристический седан с неоновой подсветкой снизу мчится по мокрому ночному шоссе мегаполиса, оставляя световые шлейфы. Вид сзади в экстремальном нижнем ракурсе. Кинематографичное освещение, высокая детализация, фотография с широкоугольным объективом.

ChatGPT
Ideogram
Flux
Recraft
Qwen
Шедеврум

Сложная композиция с разделением кадра на три части

Финальный тест — вызов на точность. Оцениваем, насколько нейросети способны следовать строгой композиционной схеме, а не только семантике запроса. Ключевые критерии: верное зонирование кадра, читаемость текста и сохранение целостности сцены.

Промт для нейросетей: Кадр разделен на 3 части. В левой части серебристый Porsche 911 стоит анфас. Взгляд автомобиля направлен прямо на камеру. В правой части кадр разделен на 2 вертикальных части. В верхней части хромированный логотип Porsche. В нижней части надпись «Porsche 911». Стильная студийная фотография. Глубина резкости, акцент на деталях.

ChatGPT
Ideogram
Flux
Recraft
Qwen
Шедеврум

Заключение

В этом сравнении мы проверили, как шесть современных нейросетей справляются с девятью разными визуальными задачами — от создания фотореалистичных портретов до интерпретации сложных структурных промтов. Важно отметить, что все промты подавались на русском языке, что позволило оценить не только художественные способности ИИ, но и понимание им контекста и нюансов.

Каждая модель показала свой уникальный профиль, но общие итоги определили лидеров и аутсайдеров. Вот подробные характеристики каждой нейросети, объясняющие их место в рейтинге.

Характеристики участников сравнения

Лидеры общего зачета

Flux

Одна из самых современных и мощных открытых моделей, задающая новые стандарты в детализации, композиции и реалистичности рендера.

Продемонстрировала феноменальную техническую грамотность. Лучше всех справлялась со сложными запросами (натюрморт, архитектура), безупречно работала со светом и фактурами, стабильно выдавая результаты высочайшего качества. Её главный козырь — предсказуемость и глубина проработки.

Чтобы глубже изучить возможности этой технологичной модели, читайте нашу статью «Flux на практике».

Qwen

Мощная мультимодальная модель, созданная для сложного контекстного понимания текста и изображений.

Блестяще показала себя в задачах на интерпретацию смысла и следование инструкциям. Особенно сильна была в точной передаче концепций. Часто предлагала самые творческие и неочевидные трактовки промтов, не теряя в детализации.

О том, как Qwen понимает связь между текстом и изображением, можно прочитать в нашем обзоре «Как пользоваться Qwen».

ChatGPT

Самый доступный и интегрированный в диалог инструмент, где мощный языковой интеллект ChatGPT помогает точно «доформулировать» запрос для DALL-E 3.

Показал отличный баланс между пониманием русскоязычных промтов, художественной выразительностью и удобством. Сильнее всего был в сценах с историей и персонажами (портрет, фэнтези), а также в структурных задачах. Его главное преимущество — диалоговый подход, позволяющий уточнять результат на лету.

Узнать подробнее  о всех функциях этой нейросети можно в нашей статье «Как пользоваться ChatGPT».

Специалисты с ограничениями

Ideogram

Узкоспециализированная модель, чья «суперсила» — генерация чёткого, стилизованного и органично вписанного в изображение текста.

В  темах часто уступала в художественной глубине и реализме, но её уникальная способность работать со шрифтами делает её незаменимым нишевым инструментом.

Если вам часто нужен текст на изображениях, вам будет полезна наша статья «Ideogram 3.0: ИИ для генерации изображений».

Recraft

Модель, ориентированная на контроль стиля и работу в векторной графике, что ценно для дизайнеров.

Хорошо показала себя в макросъемке и портрете.

О возможностях стилевого контроля и векторной генерации читайте в нашем обзоре «Что умеет Recraft».

Аутсайдер сравнения

Шедеврум

Нейросеть, изначально созданная для аудитории Рунета и позиционирующаяся как удобный инструмент с глубоким пониманием русского языка.

К сожалению, заняла последнее место. Несмотря на русскоязычную оптимизацию, по всем ключевым параметрам — детализации, художественному качеству, сложности композиции и следованию промту — она значительно уступала конкурентам.

Результаты часто были упрощёнными, с ошибками в анатомии и логике сцены. Этот пример наглядно показывает, что «родной язык» промта — важное, но не определяющее преимущество, если за ним не стоят передовые архитектура и обучение модели.

Несмотря на результаты, с базовыми функциями этой нейросети можно ознакомиться в статье «Шедеврум: создание изображений с помощью искусственного интеллекта».

Прокрутить вверх