MiniCPM-V在整体性能上超越了GPT-4V、Gemini Pro、Qwen-VL和Claude 3等专有模型,并支持超过30种语言的跨模态对话。

视觉

24.8K次引用 更新于2个月前

说明

image.png

注意: 首先需要重新构建 ./ollama 二进制文件,有三种方法可以做到。

1. 下载二进制文件

访问 发布页面 并下载文件。

🔥 特别地,./ollama-linux-arm64 文件是在 Debian 操作系统上构建的。它可以在安卓手机的 Termux 应用中运行。

启动服务器

./ollama-linux-x86_64 serve

运行此模型

ollama run hhao/openbmb-minicpm-llama3-v-2_5

2. 在 docker 中运行(使用 cpu 或 gpu)

  • 🆕 支持 x86_64 和 arm64 架构的操作系统。
  • 支持 CUDA(NVIDIA)和 ROCm(AMD)。 更多信息 >>
# x86_64 arch
docker pull hihao/ollama-amd64

# arm64 arch
# docker pull hihao/ollama-arm64

docker run -d -v ./models:/root/.ollama -p 11434:11434 --name ollama hihao/ollama-amd64

docker exec -it ollama bash

ollama run hhao/openbmb-minicpm-llama3-v-2_5

3. 重新构建 ./ollama 二进制文件说明

安装需求

  • cmake 版本 3.24 或更高
  • go 版本 1.22 或更高
  • gcc 版本 11.4.0 或更高

设置代码

准备我们的 llama.cpp 分支和这个 Ollama 分支。

git clone -b minicpm-v2.5 https://github.com/OpenBMB/ollama.git
cd ollama/llm
git clone -b minicpm-v2.5 https://github.com/OpenBMB/llama.cpp.git
cd ../

MacOS 构建

这里我们提供了一个MacOS的示例。请参阅开发者指南以获取更多平台的详细信息。

brew install go cmake gcc

可选:启用调试和多级日志记录

## At build time
export CGO_CFLAGS="-g"

## At runtime
export OLLAMA_DEBUG=1

获取所需的库并构建本地LLM代码

go generate ./...

构建ollama

go build .

启动服务器

./ollama serve

运行此模型

ollama run hhao/openbmb-minicpm-llama3-v-2_5

Windows编译

注意:Ollama的Windows编译仍在开发中。

安装所需工具

  • MSVC工具链 - 最基本的需求数据是C/C++和cmake
  • Go版本1.22或更高
  • MinGW(选择其中一个变体)与GCC。
$env:CGO_ENABLED="1"
go generate ./...
go build .

启动服务器

./ollama serve

运行此模型

ollama run hhao/openbmb-minicpm-llama3-v-2_5

Windows CUDA (NVIDIA) 编译

除了上面提到的常见Windows开发工具外,在安装MSVC后安装CUDA。

Windows ROCm (AMD Radeon) 编译

除了上面提到的常见Windows开发工具外,在安装MSVC后安装AMD的HIP包。

最后,将MSVC中包括的ninja.exe添加到系统路径中(例如:C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\Common7\IDE\CommonExtensions\Microsoft\CMake\Ninja)。

Linux编译

请参阅Linux开发者指南


MiniCPM-V:手机上的GPT-4V级别多模态LLM

  • MiniCPM-Llama3-V 2.5:🔥🔥🔥MiniCPM-V系列中最新、功能最强大的模型。具有总共8B个参数,该模型在整体性能上超过了GPT-4V-1106、Gemini Pro、Qwen-VL-Max和Claude 3等专有模型。配备了增强的OCR和指令遵循能力,该模型还可以支持包括英语、中文、法语、西班牙语、德语等在内的超过30种语言的跨模态对话。借助量化、编译优化和在CPU和NPU上的几种高效推理技术,MiniCPM-Llama3-V 2.5可以有效地部署在端侧设备上。

新闻

📌 粘贴

  • [2024.05.28] 🚀🚀🚀 MiniCPM-Llama3-V 2.5现在完全支持在llama.cppollama中实现其功能!请拉取最新的llama.cpp & ollama代码。我们还在这里发布了各种大小的GGUFhere。ollama使用FAQ将在一天内推出。请保持关注!
  • [2024.05.28] 💫 我们现在支持MiniCPM-Llama3-V 2.5的LoRA精调,只需2个V100 GPU即可!更多信息在这里
  • [2024.05.23] 🔍 我们发布了一篇关于Phi-3-vision-128k-instruct和MiniCPM-Llama3-V 2.5的全面比较,包括基准评估、多语言功能和推理效率 🌟📊🌍🚀。点击这里查看更多详情。
  • [2024.05.23] 🔥🔥🔥 MiniCPM-V登上GitHub和Hugging Face趋势排行榜!我们推荐的演示(由Hugging Face Gradio官方账号推荐)在这里可用。快来试用吧!


  • [2024.05.25] MiniCPM-Llama3-V 2.5现在支持流式输出和自定义系统提示。点击这里试用!
  • [2024.05.24] 我们发布了MiniCPM-Llama3-V 2.5的gguf,支持llama.cpp推理,并在手机上提供6~8 token/s的流畅解码。现在就来试试吧!
  • [2024.05.20] 我们开源了MiniCPM-Llama3-V 2.5,其OCR能力得到了改进,支持30+种语言,代表了首次在端侧实现达到GPT-4V级别性能的MLLM!我们提供了高效推理简单的微调。现在就来试试吧!
  • [2024.04.23] MiniCPM-V-2.0现在支持vLLM!点击这里查看更多详情。
  • 【2024.04.18】我们创建了HuggingFace Space以展示MiniCPM-V 2.0演示,详情请点击这里
  • 【2024.04.17】MiniCPM-V-2.0现已支持部署WebUI演示
  • 【2024.04.15】MiniCPM-V-2.0现在也支持使用SWIFT框架进行微调
  • 【2024.04.12】我们开源了MiniCPM-V 2.0,其在理解场景文本方面的性能与Gemini Pro相当,并在OpenCompass(一个涵盖11个流行基准的全面评估)中优于强大的Qwen-VL-Chat 9.6B和Yi-VL 34B。点击这里查看MiniCPM-V 2.0的技术博客。
  • 【2024.03.14】MiniCPM-V现已支持使用SWIFT框架进行微调。感谢Jintao的贡献!
  • 【2024.03.01】MiniCPM-V现在可在Mac上部署!