一个紧凑而高效的视觉-语言模型,专门为视觉文档理解而设计,能够自动从表格、图表、信息图、绘图、示意图等提取内容。

视觉 工具 2b

19.4K 12 天前

自述文件

注意:此模型需要 Ollama 0.5.13

一个紧凑而高效的视觉-语言模型,专门为视觉文档理解而设计,能够自动从表格、图表、信息图、绘图、示意图等提取内容。 该模型在精心策划的指令跟随数据集上进行训练,该数据集包含各种公共数据集和为支持广泛的文档理解和通用图像任务而量身定制的合成数据集。 它是通过微调具有图像和文本模式的 Granite 大型语言模型进行训练的。

参考资料

Hugging Face