...
Технологија

PersonaPlex-7B-v1: Еден модел со течен говор и слушање

NVIDIA истражувачите најавија нов модел за говор што се стреми кон природна и реална комуникација во реално време, наречен PersonaPlex-7B-v1. Овој модел, благодарение на целосната двонасочна структура, може да ја слуша корисниковата изјава и истовремено да одговара; на тој начин, тој ги компресира повеќеслојните процеси што се карактеристични за традиционалните асистенти за глас во еден трансформер модел.

PersonaPlex-7B-v1: Едноста модель со течен говор и слушање

Моделот, заедно со разбирањето и создавањето на говорот, користи невронски кодек што постојано кодира проток на звук и генерира текстуални и звучни токени синхронизирано преку автогресивни процеси. Ова му овозможува на моделот да ги обработува гласовите во реално време додека корисникот зборува, и истовремено да одржува свој глас; така, прекините во говорот, преклопувањата и повратната врска со контекстот се реализираат поплавно и побезпрепрека.

PersonaPlex-7B-v1: Едноста модел со течен говор и слушање

PersonaPlex функционира на основа на два паралелни текови со потрошувачот и агентот, кои го следат текстот. Бидејќи и двата текови делат ист моделски статус, додека корисникот продолжува со говорот, слухот не се губи, а при интервенции од страна, одговорите се адаптираат брзо.

Со модел со 7 милијарди параметри, PersonaPlex-7B-v1 се базира на Moshi архитектурата и може да обработува до 24 kHz во влезните/излезните информации. Со користење на моделот NVIDIA Helium во јазичната инфраструктура, овој дизајн има за цел да ја одржува семантичната конзистентност дури и во непредвидени ситуации.

Овој модел е обучуван во една фаза и се базира на баланс меѓу реални говори и синтетички дијалози. Реалните податоци вклучуваат 7.303 телефонски разговори од Fisher English Corpus, што претставува околу 1.217 часа говор; тие се етикетирани со насоки за личноста и контекстот. Синтетичкиот дел е составен од 39.322 дијалози со асистент и 105.410 дијалози со кориснички услуги, а текстовите се генерирани со Qwen3-32B и GPT-OSS-120B, додека гласот е создаден со Chatterbox TTS.

PersonaPlex-7B-v1 е објавен под MIT лиценцата односно, за делот со моделските тежини, се користи NVIDIA Open Model License. За детали, можете да се консултирате на линковите наведени во изворот.

Напишете коментар

Вашата адреса за е-пошта нема да биде објавена. Задолжителните полиња се означени со *