Дали вештачката интелигенција оди кон колапс или трансформација?

Вештачката интелигенција напредува со невидена брзина, но според Илон Маск, нејзиниот развој можеби веќе ја достигнал својата граница. Тој тврди дека сме дошле до „врвни податоци” – точка во која информациите генерирани од луѓето веќе не се доволни за обука на напредни модели на вештачка интелигенција.

“Недостигот на податоци генерирани од луѓе може дополнително да го забави развојот на системите за вештачка интелигенција.” – Предупредување кое станува реалност во технолошкиот свет.

Криза на податоци: пресвртна точка за вештачката интелигенција?

Теоријата за врвни податоци сугерира дека интернетот веќе ги обезбедил сите корисни информации што можат да се користат за обука на вештачка интелигенција, оставајќи ги истражувачите да бараат алтернативи. Маск тврди дека клучната пресвртна точка веќе се случила во 2024 година, што значи дека системите како ChatGPT, Gemini и Claude веќе ги чувствуваат последиците.

Ова тврдење се совпаѓа со претходните предупредувања од Илја Сутскевер, поранешен главен научник во OpenAI, кој уште во 2022 година предвиде дека висококвалитетните податоци за обука брзо ќе се потрошат.

Според истражувањето на Epoch Research Institute, текстуалните податоци би можеле да бидат исцрпени до 2027 година, додека визуелните содржини би можеле да траат до 2060 година. Со оглед на зголемената потрошувачка на податоци од моделите со вештачка интелигенција, реалната ситуација може да стане критична уште порано.

Дали синтетичката содржина може да ја спаси вештачката интелигенција – или ќе ја уништи?

Со истекот на реалните податоци, технолошката индустрија се свртува кон синтетички податоци – содржина генерирана од самата вештачка интелигенција, наместо од човечка активност.

Компаниите како Microsoft, Meta, OpenAI и Anthropic веќе воведуваат синтетички податоци во своите системи, при што се проценува дека 60% од податоците за обука на модели со вештачка интелигенција во 2024 година ќе бидат вештачки генерирани. Иако ова може да ги реши проблемите со приватноста и авторските права, постои сериозен ризик: колапс на моделот.

Според една студија објавена во списанието Nature, прекумерната употреба на синтетички податоци може да доведе до самореферентни јамки, во кои вештачката интелигенција ја губи различноста, ја засилува пристрасноста и го деградира квалитетот. Наместо напредок, вештачката интелигенција би можела да почне да се „јаде сама себе”, претворајќи се во затворен систем на дезинформации.

Иднината на вештачката интелигенција зависи од балансирањето на податоците

И покрај ризиците, компании како Google, Microsoft и OpenAI продолжуваат да интегрираат синтетички податоци. Моделите како Phi-4, Claude 3.5 Sonnet и Gemma веќе користат вештачки генерирани податоци во значителна мера.

Клучното прашање сега е: колку синтетички податоци се премногу? Балансирањето на реалните и синтетичките податоци може да ја одреди насоката на развојот на вештачката интелигенција во следната деценија. Преголемото потпирање на вештачка содржина може да доведе до стагнација и губење на креативноста, додека целосното изоставување може да го забави технолошкиот напредок.

Оваа дебата ги надминува техничките аспекти – станува етичко и социјално прашање. Како што вештачката интелигенција станува сѐ поприсутна во секојдневниот живот, начинот на кој ја тренираме ќе влијае на нејзината точност, правичност и доверливост.