【多模态大模型】端侧语音大模型minicpm-o：手机上的 GPT-4o 级多模态大模型

MiniCPM-o ，它是一款 开源、轻量级 的多模态大语言模型，目标是在手机等资源受限的环境中实现 GPT-4o 级别的多模态能力！
在这里插入图片描述

1. MiniCPM-o：小身材，大能量！

MiniCPM-o 的名字已经暗示了它的核心特点：Mini (小巧) 和 CPM (中文预训练模型)，最后的 “o” 则代表 Omnimodal (全模态)。它由 OpenBMB 团队推出，旨在打造一款真正 实用化 的多模态大模型，让每个人都能在自己的手机上体验到强大的 AI 能力。

核心亮点：

GPT-4o 级别多模态能力: 官方宣称在视觉、语音和多模态理解方面，MiniCPM-o 达到了 GPT-4o 的水平，甚至在某些方面超越。
极致轻量化: 模型体积小巧，易于部署在移动设备和边缘设备上，摆脱对云端计算的依赖。
全模态输入: 不仅支持文本和图像，还加入了语音输入，能够理解更丰富的多模态信息。
实时流式处理: 支持 多模态实时流式输入，为实时交互应用场景打开了大门，例如多模态直播、实时翻译等。
完全开源: 模型权重、代码和数据全部开源，方便研究者和开发者使用和改进。

简而言之，MiniCPM-o 的目标就是：将 GPT-4o 级别的多模态能力，装进你的手机里！

2. 模型结构：全融合多模态架构

MiniCPM-o 采用了 全融合多模态架构，这意味着它并非简单地将不同模态的信息拼接在一起，而是从模型底层就实现了多模态信息的深度融合。这种架构能够更好地捕捉不同模态之间的关联性，从而提升模型的理解和推理能力。

虽然 Notion 页面没有详细展开模型结构的细节，但我们可以推测其大致组成部分：

视觉编码器 (Vision Encoder): 负责处理图像输入，提取视觉特征。可能采用类似 ViT (Vision Transformer) 或 CNN 的结构。
音频编码器 (Audio Encoder): 负责处理音频输入，提取音频特征。可能采用类似 Whisper 或其他音频特征提取模型的结构。
语言编码器 (Language Encoder): 负责处理文本输入，提取文本特征。可能基于 Transformer 架构，例如类似 CPM 或其他 LLM 的结构。
多模态融合模块 (Multimodal Fusion Module): 核心组件，将来自视觉、音频和语言编码器的特征进行深度融合。具体融合方式可能包括 Cross-Attention、Gate Mechanisms 等。
解码器 (Decoder): 基于融合后的多模态特征，生成文本输出。同样可能基于 Transformer 架构。

**架构示意图

在这里插入图片描述

全融合的优势：

传统的多模态模型可能采用 late fusion (后期融合) 或 intermediate fusion (中期融合) 的方式，即将不同模态的信息先独立处理，然后在后期或中间层进行融合。而 全融合架构 则更强调 early fusion (早期融合) 和 deep fusion (深度融合)，让不同模态的信息在模型更底层的网络层就开始交互和融合，从而更好地捕捉模态间的细粒度关联。

举例说明:

假设模型需要理解一张 “猫咪坐在钢琴前弹奏音乐” 的图片。

Late Fusion: 模型可能先独立识别出 “猫咪”、“钢琴” 和 “音乐”，然后简单地将这些标签组合在一起。但无法深入理解 “猫咪” 和 “弹奏音乐” 之间的 动作关系。
全融合: 模型在底层就将视觉特征 (猫咪的姿态、钢琴的形状) 和文本特征 (“弹奏音乐”) 进行融合，能够更准确地理解猫咪正在 “弹奏” 钢琴，而不是简单地 “靠近” 钢琴。

3. 训练步骤：大规模多模态数据驱动

MiniCPM-o 的强大能力离不开 大规模多模态数据的训练。根据 Notion 页面的描述，其训练过程主要包括以下几个关键步骤：

大规模多模态预训练 (Large-scale Multimodal Pre-training):
- 数据来源: 海量的图文对、音视频数据、多模态对话数据等。可能包括公开数据集 (例如 LAION, CC12M, AudioSet) 以及自建数据集。
- 训练目标: 让模型学习通用的多模态表示，掌握不同模态之间的对齐关系，并初步具备多模态理解和生成能力。
- 预训练任务: 可能包括 Masked Language Modeling (MLM)、Masked Image Modeling (MIM)、Masked Audio Modeling (MAM)、Image-Text Matching、Audio-Text Matching、Multimodal Contrastive Learning 等。
多模态指令精调 (Multimodal Instruction Fine-tuning):
- 数据来源: 高质量的多模态指令数据，例如多模态问答、多模态对话、多模态描述生成等。可能需要人工标注或半自动生成。
- 训练目标: 引导模型理解和遵循多模态指令，使其能够根据用户指令完成特定的多模态任务，例如看图说话、听音识物、多模态对话等。
- 精调方法: 通常采用监督学习的方式，使用交叉熵损失函数，优化模型生成与指令对应的目标输出。
多模态对齐与优化 (Multimodal Alignment and Optimization):
- 训练目标: 进一步提升模型的性能和对齐能力，例如提升生成文本的流畅性、信息量、安全性、以及与人类价值观的对齐程度。
- 优化方法: 可能采用强化学习 (Reinforcement Learning, RL) 或基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 等技术。
- 对齐目标: 确保模型生成的内容更加符合人类的期望，避免生成有害或不符合伦理的内容。

训练流程示意图:

[大规模多模态预训练] --> [多模态指令精调] --> [多模态对齐与优化] --> MiniCPM-o 模型

数据的重要性:

正如所有大模型一样，数据是 MiniCPM-o 训练成功的基石。高质量、多样化、大规模的多模态训练数据，能够让模型充分学习到不同模态的信息，以及模态之间的复杂关系，从而具备强大的多模态能力。

4. 效果评测：媲美 GPT-4o 的多模态性能

MiniCPM-o 的性能评测结果令人印象深刻。根据 Notion 页面展示的 benchmark 数据和案例，MiniCPM-o 在多个多模态评测基准上都取得了 媲美甚至超越 GPT-4o 的成绩！

主要评测结果：

多模态理解 (Multimodal Understanding):
- MME (Multimodal Model Evaluation): 在 MME Benchmark 上，MiniCPM-o 的得分 超越 GPT-4o。 MME 主要评测模型的多模态感知和认知能力。
- LLaVA-Bench (Large Language and Vision Assistant Benchmark): 在 LLaVA-Bench 上，MiniCPM-o 的得分 与 GPT-4o 相当。 LLaVA-Bench 更加侧重于评测模型的视觉问答能力。
- SEED-Bench (Seeing, Evaluating, and Exploiting the Dimensions of Embodiment Benchmark): 在 SEED-Bench 上，MiniCPM-o 的得分 同样表现出色。 SEED-Bench 更加关注模型在具身智能任务中的多模态能力。

评测结果表格 (部分，数据来自 Notion 页面):

Benchmark	MiniCPM-o	GPT-4o	Gemini Pro
MME (Overall)	1738.9	1677.7	N/A
LLaVA-Bench (Overall)	85.7	86.1	N/A
SEED-Bench (Overall)	69.8	N/A	N/A

定性案例展示:

Notion 页面还展示了 MiniCPM-o 在多模态理解、推理和生成方面的定性案例，例如：

图像理解与描述: 能够准确描述图像内容，并进行简单的推理，例如识别图像中的物体、场景和人物关系。
语音理解与问答: 能够理解语音指令，并根据语音内容回答问题。
多模态对话: 能够进行多轮多模态对话，根据用户输入的图像、语音和文本信息进行交互。
多模态内容创作: 能够根据多模态指令生成图像、音频和文本内容。

代码示例 (概念性演示 - 非真实代码):

虽然 Notion 页面没有提供直接可运行的代码，但为了帮助大家理解如何使用 MiniCPM-o，我们可以设想一个 概念性的 Python 代码示例 (请注意，这只是演示模型可能的使用方式，并非真实可运行代码，具体使用方式请参考官方开源代码):

# 假设已经安装了 MiniCPM-o 的 Python 库 (minicpm_o)

from minicpm_o import MiniCPM_o_Model

# 初始化 MiniCPM-o 模型
model = MiniCPM_o_Model()

# 1. 图像理解与描述
image_path = "path/to/your/image.jpg"
text_output = model.describe_image(image_path)
print(f"图像描述: {text_output}")

# 2. 语音理解与问答
audio_path = "path/to/your/audio.wav"
question = "音频里说了什么？"
text_output = model.answer_audio_question(audio_path, question)
print(f"语音问答结果: {text_output}")

# 3. 多模态对话 (多轮)
conversation_history = [] # 存储对话历史
while True:
    user_input_type = input("请输入输入类型 (text/image/audio/exit): ")
    if user_input_type == "exit":
        break
    elif user_input_type == "text":
        user_text = input("请输入文本: ")
        conversation_history.append({"type": "text", "content": user_text})
    elif user_input_type == "image":
        image_path = input("请输入图像路径: ")
        conversation_history.append({"type": "image", "content": image_path})
    elif user_input_type == "audio":
        audio_path = input("请输入音频路径: ")
        conversation_history.append({"type": "audio", "content": audio_path})

    response = model.multimodal_chat(conversation_history)
    print(f"模型回复: {response}")
    conversation_history.append({"type": "assistant", "content": response}) # 将模型回复加入对话历史