
注意: 首先需要重新构建 ./ollama 二进制文件,有以下三种方式。
1. 下载二进制文件
前往 发布页面 下载文件。
🔥 尤其是构建在 debian 操作系统上的 ./ollama-linux-arm64 文件。它可以在安卓手机的 Termux 应用程序中运行。
启动服务器
./ollama-linux-x86_64 serve
运行此模型
ollama run hhao/openbmb-minicpm-llama3-v-2_5
2. 在 docker 中运行(使用 cpu 或 gpu)
- 🆕 支持 x86_64 和 arm64 架构操作系统。
- 支持 CUDA (NVIDIA) 和 ROCm (AMD)。 更多详情 >>
# x86_64 arch
docker pull hihao/ollama-amd64
# arm64 arch
# docker pull hihao/ollama-arm64
docker run -d -v ./models:/root/.ollama -p 11434:11434 --name ollama hihao/ollama-amd64
docker exec -it ollama bash
ollama run hhao/openbmb-minicpm-llama3-v-2_5
3. 重新构建 ./ollama 二进制文件说明
安装需求
- cmake 版本 3.24 或更高
- go 版本 1.22 或更高
- gcc 版本 11.4.0 或更高
设置代码
准备我们各自的 llama.cpp 分支和这个 Ollama 分支。
git clone -b minicpm-v2.5 https://github.com/OpenBMB/ollama.git
cd ollama/llm
git clone -b minicpm-v2.5 https://github.com/OpenBMB/llama.cpp.git
cd ../
MacOS 编译
这里我们提供了一个 MacOS 例子。查看 开发者指南 了解更多平台。
brew install go cmake gcc
可选:启用调试和更详细的日志记录
## At build time
export CGO_CFLAGS="-g"
## At runtime
export OLLAMA_DEBUG=1
获取所需的库并构建原生的 LLM 代码
go generate ./...
编译 ollama
go build .
启动服务器
./ollama serve
运行此模型
ollama run hhao/openbmb-minicpm-llama3-v-2_5
Windows 编译
注意:Ollama 的 Windows 编译仍在开发中。
安装所需的工具
- MSVC 工具链 - 至少需要 C/C++ 和 cmake
- Go 版本 1.22 或更高
- MinGW(选择一种变体)带有 GCC。
$env:CGO_ENABLED="1"
go generate ./...
go build .
启动服务器
./ollama serve
运行此模型
ollama run hhao/openbmb-minicpm-llama3-v-2_5
Windows CUDA (NVIDIA) 编译
除了上述常用的 Windows 开发工具之外,在安装 MSVC 后安装 CUDA。
Windows ROCm (AMD Radeon) 编译
除了上述常用的 Windows 开发工具之外,在安装 MSVC 后安装 AMD 的 HIP 包。
最后,将 MSVC 包含的 ninja.exe
添加到系统路径中(例如 C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\Common7\IDE\CommonExtensions\Microsoft\CMake\Ninja
)。
Linux 编译
查看 Linux 的 开发者指南。
MiniCPM-V: 您手机上的 GPT-4V 级多模态 LLM
- MiniCPM-Llama3-V 2.5:🔥🔥🔥MiniCPM-V 系列中最新和功能最强大的模型。总共有 8B 个参数,此模型在整体性能上超过了 GPT-4V-1106、Gemini Pro、Qwen-VL-Max 和 Claude 3 等专有模型。装备了增强的 OCR 和指令跟随能力,该模型还可以支持包括英语、中文、法语、西班牙语、德语等在内的超过 30 种语言的跨模态对话。借助量化、编译优化以及 CPU 和 NPU 上的几种高效推理技术,MiniCPM-Llama3-V 2.5 可以在端侧设备上高效部署。
新闻
📌 粘贴
- [2024.05.28] 🚀🚀🚀MiniCPM-Llama3-V 2.5 现已完全支持其在 llama.cpp 和 ollama 中的功能!请拉动 llama.cpp & amp; ollama 的最新代码。我们还在这里发布了各种尺寸的 GGUF 这里。ollama 使用的问题列表将在一天内发布。请保持关注!
- [2024.05.28] 💫我们现在支持 MiniCPM-Llama3-V 2.5 的 LoRA 微调,只需 2 个 V100 GPU!查看更多统计数据 这里。
- [2024.05.23] 🔍 我们发布了 Phi-3-vision-128k-instruct 和 MiniCPM-Llama3-V 2.5 的全面比较,包括基准评估、多语言能力和推理效率 🌟📊🌍🚀。点击 这里 查看更多详细信息。
- [2024.05.23] 🔥🔥🔥MiniCPM-V 排名 GitHub Trending 和 Hugging Face Trending!由 Hugging Face Gradio 官方账号推荐的演示,现在可在 这里 查看。来试一试吧!
- [2024.05.25]MiniCPM-Llama3-V 2.5 现在支持流式输出和自定义系统提示。试一试 这里!
- [2024.05.24] 我们发布了 MiniCPM-Llama3-V 2.5 的 gguf,它支持 llama.cpp 推理,并在手机上提供 6~8 token/s 的流畅解码。现在试试!
- [2024.05.20] 我们开源了 MiniCPM-Llama3-V 2.5,它改善了 OCR 功能并支持 30 多种语言,代表着第一个实现 GPT-4V 级性能的端侧 MLLM!我们提供了 高效推理 和 简单微调。现在试试!
- [2024.04.23] MiniCPM-V-2.0 现在支持 vLLM!点击 这里 查看更多详细信息。
- [2024.04.18] 我们创建了 HuggingFace Space 用于托管 MiniCPM-V 2.0 的演示,位于 这里!
- [2024.04.17] MiniCPM-V-2.0 现在 Support 部署 WebUI 演示!
- 【2024.04.15】MiniCPM-V-2.0 现已支持使用 SWIFT 框架进行微调!
- 【2024.04.12】我们开源了 MiniCPM-V 2.0,其在理解场景文本方面与 Gemini Pro 性能相当,并在OpenCompass(覆盖11个流行基准的全面评估)上优于强 Qwen-VL-Chat 9.6B 和 Yi-VL 34B。点击此处查看 MiniCPM-V 2.0 技术博客。
- 【2024.03.14】MiniCPM-V 现在支持使用 SWIFT 框架进行微调。感谢Jintao 的贡献!
- 【2024.03.01】MiniCPM-V 现可部署于 Mac!