SAM Audio: Претпоставена револуција во обработката на звукот
Meta го претставува SAM Audio како нов модел кој тежнее да ги промени правилата во сферата на обработката на аудио, користејќи мулти-модални влезови за изолирање на звуци од сложени мешавини. Ова решение имитира начинот на човечката перцепција за звукот и ја прави разделбата на аудио сигналите повпечатлива и практична за различни примени.

Нова ера во уредувањето на звукот Со SAM Audio корисниците можат да комуницираат со моделот преку природни методи како текстуални упатства, визуелни индикатори или одредување на временски интервали, што овозможува повисока прецизност при изолација на одредени звуци, како гитара во концертно видео или чистење на аудиозапис од подкаст. Meta тврди дека SAM Audio е прв модел со интегрирана мулти-модална вештачка интелигенција, а неговата централна компонента е Perception Encoder Audiovisual (PE-AV), која го координира аудио-визуалниот поток за подобрено времеско усогласување.
Оваа верзија е подигање на нивото, каде се подобрува усогласеноста между визуелна и аудитивна информација во текот на времето, овозможувајќи мулти-модална сегментација на звукот и полесно идентификување звучни извори како говорници или инструменти во сценски услови. Вежите на системот се базирани на генеративен модел со дифузија за одржување на протокот на податоци и создавање на потребните звукoви слоеви. Обуката користи композиција од говор, музика и општи звуци од реални и синтетички извори, што ги заснова високите перформанси во реални услови.

Во однос на перформансите, SAM Audio се наоѓа пред актуелните модели за општа сегментација на звукот и се споредува со најдобрите во ова поле. Комбинациите на повеќе входи дополнително ги подобруваат резултатите. Моделот може да достигне параметрски опсег од 500 милиони до 3 милијарди параметри и работи со Real-Time Factor (RTF) околу 0.7. Сепак, звукот не може да служи како промпт без ограничување, и концептот за целосно исклучување без промпт е невозможно. Исто така, изолирањето на многу слични звуци остава предизвикувања, но предностите се значајни, особено во примените на мулти-модални податоци.
Помеѓу забелешките за безбедност, постои ризик од злоупотреба при изолирање на звуци според барање на корисникот, како што е слушање на делови од јавни записи. За да ја испробате технологијата, можете да ја пробате онлайн или да ја преземете.


