Tencent Open-Sources World Model Reinforcement Learning Framework WorldCompass

Tencent Open-Sources World Model Reinforcement Learning Framework WorldCompass

На 10 март 3D екипът зад модела Hunyuan на Tencent обяви изданието с отворен код на WorldCompass, рамка за обучение след обучение, предназначена за световни модели.

WorldCompass служи като официално разширение за обучение за подсилване за Hunyuan World Model 1.5, целящо да подобри точността на изпълнение и визуалната последователност в интерактивни задачи с дълъг хоризонт.

Рамката е специално проектирана за интерактивни световни модели с дълга последователност. Чрез последващо обучение, базирано на подсилващо обучение, системата насочва моделите да интерпретират по-добре инструкциите на потребителя и да изследват виртуални среди. Tencent сравнява рамката с „компас“ за модели на света, предоставяйки насоки по време на извода на модела.

hunyuan1.png

При експериментално тестване изследователите приложиха WorldCompass към световния модел с отворен код WorldPlay. Резултатите показаха, че при сложни съставни действия – като извършване на движение и въртене едновременно – базовият модел постигна приблизително 20% точност на действие, докато моделите, обучени с WorldCompass, се подобриха до около 55%, увеличение от повече от 35 процентни пункта. При по-прости сценарии на действие точността се подобрява с около 10 процентни пункта.

Освен това, на WorldScore, бенчмарк за оценка на световен модел, предложен от Станфордския университет, моделите, обучени с WorldCompass, също постигнаха по-високи резултати. Tencent каза, че кодовата база и подробностите за модела са напълно отворени, за да подкрепят по-нататъшни изследвания в световни модели и физически AI.

Източник: IT Home

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Scroll to Top