Елон Маск песимист: Вештачката интелигенција на граница – Една работа го забавува понатамошниот развој

Точка

13/03/2025

11:01

994

Големина на фонт

а а а

Недостигот на податоци генерирани од луѓе може дополнително да го забави развојот на системите за вештачка интелигенција.

Вештачката интелигенција напредува со невидена брзина, но според Илон Маск, нејзиниот напредок можеби веќе ја достигнал својата граница. Тој тврди дека сме дошле до „врвни податоци“, односно до точка во која информациите генерирани од луѓето веќе не се доволни за обука на напредни модели.

Криза на податоци: пресвртна точка за вештачката интелигенција?

Теоријата за врвни податоци сугерира дека интернетот веќе ги обезбедил сите корисни информации што луѓето можат да ги користат, оставајќи ги истражувачите на вештачката интелигенција да бараат алтернативи. Маск тврди дека клучната пресвртна точка веќе се случила во 2024 година, што значи дека системите како ChatGPT, Gemini и Claude веќе ги чувствуваат последиците.


Ова тврдење се совпаѓа со претходните предупредувања од Илја Сутскевер, поранешен главен научник во OpenAI, кој уште во 2022 година предвиде дека висококвалитетните податоци за обука брзо ќе се потрошат.

Според истражувањето на Epoch Research Institute, текстуалните податоци би можеле да бидат исцрпени до 2027 година, додека визуелните содржини би можеле да траат до 2060 година. Сепак, со оглед на зголемената потрошувачка на податоци од моделите со вештачка интелигенција, реалната ситуација може да стане критична уште порано.


Без свежи човечки податоци, моделите со вештачка интелигенција ризикуваат стагнација, зголемена пристрасност, па дури и регресија во способностите, што може да доведе до неточни и помалку иновативни системи.

Дали синтетичката содржина може да ја спаси вештачката интелигенција – или ќе ја уништи?

 Со истекот на реалните податоци, технолошката индустрија се свртува кон синтетички податоци – содржина генерирана од самата вештачка интелигенција, наместо од човечка активност.

Компаниите како Microsoft, Meta, OpenAI и Anthropic веќе воведуваат синтетички податоци во своите системи, при што се проценува дека 60% од податоците за обука на модели со вештачка интелигенција во 2024 година ќе бидат вештачки генерирани. Иако ова може да ги реши проблемите со приватноста и авторските права, постои сериозен ризик: колапс на моделот.


Според една студија објавена во списанието Nature, прекумерната употреба на синтетички податоци може да доведе до самореферентни јамки, во кои вештачката интелигенција ја губи различноста, ја засилува пристрасноста и го деградира квалитетот. Наместо напредок, вештачката интелигенција би можела да почне да се „јаде сама себе“, претворајќи се во затворен систем на дезинформации.

Иднината на вештачката интелигенција зависи од балансирањето на податоците

 И покрај ризиците, компании како Google, Microsoft и OpenAI продолжуваат да интегрираат синтетички податоци. Моделите како Phi-4, Claude 3.5 Sonnet и Gemma веќе користат вештачки генерирани податоци во значителна мера.


Клучното прашање сега е: колку синтетички податоци се премногу?

Балансирањето на реалните и синтетичките податоци може да ја одреди насоката на развојот на вештачката интелигенција во следната деценија. Преголемото потпирање на вештачка содржина може да доведе до стагнација и губење на креативноста, додека целосното изоставување може да го забави развојот на технологијата за вештачка интелигенција.

Оваа дебата ги надминува техничките аспекти – станува етичко и социјално прашање. Како што вештачката интелигенција станува се поприсутна во секојдневниот живот, начинот на кој ја тренираме ќе влијае на нејзината точност, правичност и доверливост.