Новиот модел на DeepSeek: чекор по чекор кон големи системи со mHC архитектура
Со новиот модел на DeepSeek, кој беше лансиран на почетокот на минатата година и кој речиси предизвика земјотрес во светот на вештачката интелигенција, DeepSeek, овој пат се подготвува да направи уште еден голем чекор. Кинеската компанија долго време ги откриваше гласините за новиот модел. Статијата објавена оваа недела појаснува што точно може да ветува новата архитектура. За очигледен, очекува се да предизвика сличен эффект како успехот на R1, и овој пат се поставува целта за отворање на нови врати за обука на вештачките интелигенции.
Новата архитектура за длабоко учење, наречена Manifold-Constrained Hyper-Connections (mHC), претставена во статијата, има за цел да ги намали проблемите со нестабилност и скалирање што се јавуваат при обучувањето на големите невронски мрежи. Истражувачите соопштуваат дека mHC нуди по стабилен процес на обука во споредба со постојните методи и овозможува градење на поголеми модели без да се зголеми трошокот за пресметки. Оваа движење се смета за важен чекор кон намалување на трошоците за обука на големи јазични модели.
Оваа иновација на DeepSeek доаѓа од мислата за хипер врски, предложена првпат од ByteDance во 2024 година. Ако approach-от базиран на ResNet од ByteDance имаше за цел директен пренос на информацијата помеѓу слоевите, тие создаваа проблеми во примената на поголемите модели. DeepSeek, пак, ја поедностави оваа идеја и ја направи по практично применлива. Клучната особина на mHC е тоа што, наместо да ги шире информациите меѓу слоевите случајно, ја држи информацијата во специфичен манифолд дефиниран со одредени математички правила. На тој начин, повторно се појавува идентичното пренесување што обезбедува непроменета комуникација на сигнали, и процесот на обука станува многу по стабилен.
Оваа архитектура е тестирана на 3 милијарди, 9 милијарди и 27 милијарди параметри и се покажа дека може да се скалтира без дополнителни пресметки. Статиите од DeepSeek за овие техники служат како сигнал за новиот модел што се подготвува да биде лансиран. Основачот на компанијата, Liang Wenfeng, претходно објавуваше слични работи independently, а сега најавува дека новиот модел ќе биде изградена врз оваа архитектура.
Незадолжително, кога точно ќе биде објавен овој возбудлив развој, не е целосно јасно. Сепак, се претпоставува дека можеби е претставен пред 17 февруари. Овој предвид допрва ја зголемува возбуденоста за новата архитектура и буди заинтересираност за тоа каде се наоѓа DeepSeek во seu План за патоказ.

