目前的多模态大语言模... - @邱锡鹏的微博 - 微博

目前的多模态大语言模型多采用外接一个其它模态的编码器。但是这离AGI还有一定的距离,我们提出了SpeechGPT,它具有内生的跨模态能力,是第一个既能接受跨模态输入,也能产生跨模态输出的大语言模型。SpeechGPT突破了传统语音到语音对话cascaded system (ASR+LLM+TTS) 的束缚,实现了模态之间的知识传递,不需要额外的ASR和TTS系统也能和LLM直接进行语音对话。 我们利用语音离散表示来统一了语音和文本的符号表示,通过扩充LLM词表的方式自然地把语音模态集成到LLM之中。并且构造了第一个语音-文本跨模态指令微调数据集SpeechInstruct,经过modality-adaptation pre- training, cross-modal instruction fine-tuning, chain-of-modality instruction fine-tuning三阶段的训练,使得模型具有不错的跨模态指令遵循能力和语音到语音对话的能力。在我Demo page里,我们展示了SpeechGPT