目前的多模态大语言模... - @邱锡鹏的微博 - 微博


目前的多模态大语言模型多采用外接一个其它模态的编码器。但是这离AGI还有一定的距离,我们提出了SpeechGPT,它具有内生的跨模态能力,是第一个既能接受跨模态输入,也能产生跨模态输出的大语言模型。SpeechGPT突破了传统语音到语音对话cascaded system (ASR+LLM+TTS) 的束缚,实现了模态之间的知识传递,不需要额外的ASR和TTS系统也能和LLM直接进行语音对话。 我们利用语音离散表示来统一了语音和文本的符号表示,通过扩充LLM词表的方式自然地把语音模态集成到LLM之中。并且构造了第一个语音-文本跨模态指令微调数据集SpeechInstruct,经过modality-adaptation pre- training, cross-modal instruction fine-tuning, chain-of-modality instruction fine-tuning三阶段的训练,使得模型具有不错的跨模态指令遵循能力和语音到语音对话的能力。在我Demo page里,我们展示了SpeechGPT可以充当会说话的百科全书,生活助手,闲聊伙伴,诗人,心理医生,学习助手等等。。。 SpeechGPT为打造真正的多模态大语言模型指明了方向:将不同模态的数据(视觉,语音等)统一表示为离散单元集成在LLM之中,在跨模态数据集上经过预训练和指令微调,来使得模型具有多模态理解和生成的能力,从而离AGI更进一步。
Paper: ![](http://h5.sinaimg.cn/upload/2015/09/25/3/timeline_card_small_web_default.png)网页链接

https://weibo.com/1891924883/N1kOh1vhi?pagetype=groupfeed