"GPT-4o" носи генерирање слики директно во "ChatGPT"

Точка

27/03/2025

14:38

1.487

Големина на фонт

а а а

"OpenAI" ја интегрираше можноста за генерирање слики во "ChatGPT" со помош на моделот "GPT-4o", кој комбинира текстуално и визуелно разбирање во еден систем, заменувајќи го "DALL•E 3" и овозможувајќи им на корисниците да креираат визуелна содржина без да го напуштат четот.

"OpenAI" направи уште еден чекор кон обединување на своите "AI" системи, најавувајќи интеграција на можноста за генерирање слики директно во "ChatGPT". Корисниците повеќе нема да мора да го напуштаат чет-интерфејсот за да креираат слики – сега сè се извршува преку еден модел, "GPT-4o". Оваа функција, претставена на почетокот од неделата, е дел од поширока иницијатива на компанијата за да ги направи "AI" алатките подостапни, поразновидни и покорисни во различни контексти – особено во светот на визуелната уметност, кој постојано се развива.

Досега корисниците на "ChatGPT" имаа пристап до одделни модели – текстот го генерираше "GPT", а сликите ги создаваше "DALL•E 3". "DALL•E 3" официјално беше претставен во септември 2023 година, но "AI" заедницата брзо го замени со напредни алтернативи како "MidJourney v6", "Stable Diffusion 3.5", "Flux" и други. Сега, со новата архитектура на "GPT-4o", "OpenAI" го укинува "DALL•E 3" како одделна компонента и му препушта сè на еден модел, кој може истовремено да „разбира и создава“ во повеќе модалитети.

Во официјалниот блог на компанијата се наведува дека "GPT-4o" одлично рендерира текст во слики, прецизно ги следи комплексните барања на корисниците и го користи знаењето од четот – вклучувајќи ги претходните пораки, контекстот и прикачените слики – како визуелна инспирација. Со ова, "OpenAI" дополнително ја развива својата идеја за т.н. „омни“ модел, универзален систем обучен подеднакво добро да управува со јазик, слики, звук и податоци.

Директорот на "OpenAI", Сем Алтман, ги претстави можностите на новата функција во демо-видео, каде што се прикажани примери како "GPT-4o" генерира стрип-страница што ја објаснува теоријата на релативноста на англиски и мандарински, персонализирани колекционерски картички изработени од вистински фотографии на корисници, како и уникатни комеморативни монети со транспарентна позадина. Алтман особено истакна една слика создадена од екстремно долг и детален опис, како пример за прецизноста и креативниот потенцијал на новиот систем.

Единствениот очигледен недостаток засега е брзината. "GPT-4o" создава слики значително побавно од моделот "DALL•E 3", но Алтман нагласува дека драматично подобрениот квалитет вреди за подолго чекање. За разлика од постариот систем, кој прикажуваше завршена слика по обработката, "GPT-4o" ја прикажува сликата постепено, од горе надолу – што им овозможува на корисниците да го гледаат процесот на создавање во реално време.

Но, оваа технологија не е ограничена само на создавање уметнички дела. Еден од истражувачите во "OpenAI", кој учествувал во развојот на новата функција, објаснува дека моделите сега можат да го визуализираат она што го знаат и да го преточат во корисни дијаграми, едукативни илустрации, па дури и во сложени постери со совршено прикажан текст. Системот може да уредува слики, да менува елементи, а притоа да ја задржи конзистентноста во тонот, стилот и содржината.

Во однос на безбедноста, компанијата имплементираше заштитен систем кој спречува создавање "deepfake" содржини, нелегални слики и обиди за отстранување на водени жигови. Иако сликите нема да имаат видливи ознаки, секоја генерирана слика ќе содржи "C2PA" метаподатоци, кои потврдуваат дека е создадена со помош на вештачка интелигенција. "OpenAI" исто така развива дополнителни алатки за следење на потеклото и дистрибуцијата на сликите.

Плановите вклучуваат проширување на функцијата на "API" ниво, што значи дека програмерите наскоро ќе можат да ја интегрираат оваа можност во своите апликации. На крајот, според важечките правила за користење, корисниците го задржуваат сопствеништвото над генерираните слики, под услов да ги користат во согласност со политиките на компанијата.

Интеграцијата на овие можности во "ChatGPT" не претставува само технички напредок, туку и чекор кон редефинирање на начинот на кој комуницираме со машините. "GPT-4o" не само што може да разбере што бараме – сега тоа може и да го нацрта.