PersonaPlex-7B-v1: Еден модел со течен говор и слушање
NVIDIA истражувачите најавија нов модел за говор што се стреми кон природна и реална комуникација во реално време, наречен PersonaPlex-7B-v1. Овој модел, благодарение на целосната двонасочна структура, може да ја слуша корисниковата изјава и истовремено да одговара; на тој начин, тој ги компресира повеќеслојните процеси што се карактеристични за традиционалните асистенти за глас во еден трансформер модел.
Моделот, заедно со разбирањето и создавањето на говорот, користи невронски кодек што постојано кодира проток на звук и генерира текстуални и звучни токени синхронизирано преку автогресивни процеси. Ова му овозможува на моделот да ги обработува гласовите во реално време додека корисникот зборува, и истовремено да одржува свој глас; така, прекините во говорот, преклопувањата и повратната врска со контекстот се реализираат поплавно и побезпрепрека.
PersonaPlex функционира на основа на два паралелни текови со потрошувачот и агентот, кои го следат текстот. Бидејќи и двата текови делат ист моделски статус, додека корисникот продолжува со говорот, слухот не се губи, а при интервенции од страна, одговорите се адаптираат брзо.
Со модел со 7 милијарди параметри, PersonaPlex-7B-v1 се базира на Moshi архитектурата и може да обработува до 24 kHz во влезните/излезните информации. Со користење на моделот NVIDIA Helium во јазичната инфраструктура, овој дизајн има за цел да ја одржува семантичната конзистентност дури и во непредвидени ситуации.
Овој модел е обучуван во една фаза и се базира на баланс меѓу реални говори и синтетички дијалози. Реалните податоци вклучуваат 7.303 телефонски разговори од Fisher English Corpus, што претставува околу 1.217 часа говор; тие се етикетирани со насоки за личноста и контекстот. Синтетичкиот дел е составен од 39.322 дијалози со асистент и 105.410 дијалози со кориснички услуги, а текстовите се генерирани со Qwen3-32B и GPT-OSS-120B, додека гласот е создаден со Chatterbox TTS.
PersonaPlex-7B-v1 е објавен под MIT лиценцата односно, за делот со моделските тежини, се користи NVIDIA Open Model License. За детали, можете да се консултирате на линковите наведени во изворот.


