目前的多模态大语言模... - @邱锡鹏的微博

目前的多模态大语言模型多采用外接一个其它模态的编码器。但是这离AGI还有一定的距离，我们提出了SpeechGPT，它具有内生的跨模态能力，是第一个既能接受跨模态输入，也能产生跨模态输出的大语言模型。SpeechGPT突破了传统语音到语音对话cascaded system (ASR+LLM+TTS) 的束缚，实现了模态之间的知识传递，不需要额外的ASR和TTS系统也能和LLM直接进行语音对话。我们利用语音离散表示来统一了语音和文本的符号表示，通过扩充LLM词表的方式自然地把语音模态集成到LLM之中。并且构造了第一个语音-文本跨模态指令微调数据集SpeechInstruct，经过modality-adaptation pre- training, cross-modal instruction fine-tuning, chain-of-modality instruction fine-tuning三阶段的训练，使得模型具有不错的跨模态指令遵循能力和语音到语音对话的能力。在我Demo page里，我们展示了SpeechGPT可以充当会说话的百科全书，生活助手，闲聊伙伴，诗人，心理医

目前的多模态大语言模... - @邱锡鹏的微博 - 微博

相关工具