MiniCPM-V在整体性能上超过了GPT-4V、Gemini Pro、Qwen-VL和Claude 3等私有模型,并支持30多种语言的跨模态对话。

视觉

24.8K次抓取 更新于2个月前

2个月前

036e0c1a93df · 5.1GB

说明

image.png

注意:首先需要重新构建 ./ollama 二进制文件,有3种方法可以做到。

1. 下载二进制文件

前往 发布页面 并下载文件。

🔥 特别地,./ollama-linux-arm64 文件是在 debian 系统上构建的。它可以在安卓手机的 Termux 应用上运行。

启动服务器

./ollama-linux-x86_64 serve

运行此模型

ollama run hhao/openbmb-minicpm-llama3-v-2_5

2. 在 docker 中运行(使用 cpu 或 gpu)

  • 🆕 支持 x86_64 和 arm64 架构的操作系统。
  • 支持 CUDA (NVIDIA) 和 ROCm (AMD)。 更多详情 >>
# x86_64 arch
docker pull hihao/ollama-amd64

# arm64 arch
# docker pull hihao/ollama-arm64

docker run -d -v ./models:/root/.ollama -p 11434:11434 --name ollama hihao/ollama-amd64

docker exec -it ollama bash

ollama run hhao/openbmb-minicpm-llama3-v-2_5

3. 重新构建 ./ollama 二进制文件的指令

安装需求

  • cmake 版本 3.24 或更高
  • go 版本 1.22 或更高
  • gcc 版本 11.4.0 或更高

设置代码

准备我们 llama.cpp 的分支和这个 Ollama 的分支。

git clone -b minicpm-v2.5 https://github.com/OpenBMB/ollama.git
cd ollama/llm
git clone -b minicpm-v2.5 https://github.com/OpenBMB/llama.cpp.git
cd ../

MacOS 构建

这里我们提供了一个 MacOS 的示例。有关 更多平台 的信息,请参阅 开发者指南

brew install go cmake gcc

可选:启用调试和更详细的日志记录

## At build time
export CGO_CFLAGS="-g"

## At runtime
export OLLAMA_DEBUG=1

获取所需的库并构建本机 LLM 代码

go generate ./...

构建 ollama

go build .

启动服务器

./ollama serve

运行此模型

ollama run hhao/openbmb-minicpm-llama3-v-2_5

Windows 构建

注意:Ollama 的 Windows 构建仍在开发中。

安装所需的工具

  • MSVC 工具链 - 最小要求为 C/C++ 和 cmake
  • Go 版本 1.22 或更高
  • MinGW(选择一个变体)和 GCC。
$env:CGO_ENABLED="1"
go generate ./...
go build .

启动服务器

./ollama serve

运行此模型

ollama run hhao/openbmb-minicpm-llama3-v-2_5

Windows CUDA(NVIDIA)构建

除了上述常用的 Windows 开发工具外,在安装 MSVC 后安装 CUDA。

Windows ROCm(AMD Radeon)构建

除了上述常用的 Windows 开发工具外,在安装 MSVC 后安装 AMD 的 HIP 软件包。

最后,将带 MSVC 的 ninja.exe 文件添加到系统路径中(例如 C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\Common7\IDE\CommonExtensions\Microsoft\CMake\Ninja)。

Linux 构建

请参阅关于 Linux 的开发者指南


MiniCPM-V:手机上的 GPT-4V 级别的多模态 LLM

  • MiniCPM-Llama3-V 2.5:🔥🔥🔥MiniCPM-V 系列的最新且最强大的模型。总共有 8B 个参数,在整体性能上超越了 GPT-4V-1106、Gemini Pro、Qwen-VL-Max 和 Claude 3 等专有模型。配备增强的 OCR 和指令遵循功能,该模型还可以支持包括英语、中文、法语、西班牙语、德语等在内的超过 30 种语言的跨模态对话。借助量化、编译优化以及在 CPU 和 NPU 上的几种高效推理技术,MiniCPM-Llama3-V 2.5 可以在端设备上高效部署。

新闻

📌 粘贴

  • [2024.05.28] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 现已完全支持 llama.cpp 和 ollama 中的相关功能,请获取最新代码。我们还在这里发布了各种大小的 GGUF:此处。ollama 用法的常见问题列表将在一天内发布。请保持关注!
  • [2024.05.28] 💫 我们现在支持 MiniCPM-Llama3-V 2.5 的 LoRA 微调,只需 2 个 V100 GPU!更多信息请见此处
  • [2024.05.23] 🔍 我们发布了对 Phi-3-vision-128k-instruct 和 MiniCPM-Llama3-V 2.5 的全面比较,包括基准评估、多语言功能和推理效率 🌟📊🌍🚀。点击此处查看更多详情。
  • [2024.05.23] 🔥🔥🔥 MiniCPM-V 排名 GitHub Trending 和 Hugging Face Trending!我们由 Hugging Face Gradio 官方账户推荐的演示现在可在此处找到。快来试试吧!


  • [2024.05.25] MiniCPM-Llama3-V 2.5 现支持流输出和自定义系统提示。点击此处试用!
  • [2024.05.24] 我们发布了 MiniCPM-Llama3-V 2.5 的 gguf,它支持 llama.cpp 推理,在手机上提供 6~8 token/s 的流畅解码。现在就试试!
  • [2024.05.20] 我们开源 MiniCPM-Llama3-V 2.5。它具备 OCR 功能并支持 30 种以上语言,代表了第一个实现 GPT-4V 级性能的端侧 MLLM!我们提供了高效的 推理 和简单的 微调。现在就试试吧!
  • [2024.04.23] MiniCPM-V-2.0 现在支持 vLLM!点击此处查看更多详情。
  • [2024.04.18] 我们创建了一个 HuggingFace Space 以在此处托管 MiniCPM-V 2.0 的演示。
  • [2024.04.17] MiniCPM-V-2.0 现在也支持WebUI 演示了。
  • [2024.04.15] MiniCPM-V-2.0 现在也支持使用 SWIFT 框架微调了!
  • 【2024.04.12】我们开源了MiniCPM-V 2.0,其理解场景文本的性能与Gemini Pro相当,在OpenCompass(一个涵盖11个流行基准的综合评估)上,超越了强大的Qwen-VL-Chat 9.6B和Yi-VL 34B。点击这里查看MiniCPM-V 2.0技术博客。
  • 【2024.03.14】MiniCPM-V现在支持使用SWIFT框架进行微调。感谢Jintao的贡献!
  • 【2024.03.01】MiniCPM-V现在可以部署在Mac上!