0

0

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

王林

王林

发布时间:2023-12-03 11:22:48

|

1766人浏览过

|

来源于51CTO.COM

转载

在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。

尽管目前在图表理解领域中,最先进的模型在简单测试集上表现出色,但是由于它们缺乏语言理解和输出能力,因此无法胜任更为复杂的问答任务。另一方面,基于大语言模型训练的多模态大模型的表现也不尽如人意,主要是由于它们缺乏对图表的训练样本。这些问题严重制约了多模态模型在图表理解与生成任务上的持续进步

近期,腾讯联合南洋理工大学、东南大学提出了 ChartLlama。研究团队创建了一个高质量图表数据集,并训练了一个专注于图表理解和生成任务的多模态大型语言模型。ChartLlama 结合了语言处理与图表生成等多重性能,为科研工作者和相关专业人员提供了一个强大的研究工具。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

论文地址:https://arxiv.org/abs/2311.16483

Cursor
Cursor

一个新的IDE,使用AI来帮助您重构、理解、调试和编写代码。

下载

主页地址:https://tingxueronghua.github.io/ChartLlama/

ChartLlama团队设计了一种巧妙的多元化数据收集策略,利用GPT-4生成具有特定主题、分布和趋势的数据,以确保数据集的多样性。该团队结合了开源的绘图库和GPT-4的编程能力,编写出精确的图表代码,以生成准确的图形化数据表示。此外,团队还使用GPT-4描述图表内容并生成问答对,为每个图表生成了丰富多样的训练样本,以确保经过训练的模型能够充分理解图表

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

在图表理解领域,传统模型只能完成一些简单的问题,如读取数字等简单的问答任务,无法回答较为复杂的问题。这些模型难以跟随较长的指令,同时在涉及数学运算的问答中,也常常出现运算错误。相比之下,ChartLlama 可以有效地避免这些问题,具体对比如下:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

除了传统任务外,研究团队还定义了若干新任务,其中包括三个任务涉及到图表生成。该论文提供了相关示例:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽给定图表和指令,进行图表重建与图表编辑的示例

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

生成图表示例的过程是根据指令和原始数据进行的

ChartLlama 在各种基准数据集上表现出色,达到了最先进的水平,而且所需的训练数据量也较少。它采用了灵活的数据生成和收集方法,大大扩展了图表理解和生成任务中的图表类型和任务种类,为该领域的发展作出了推动

方法概述

ChartLlama 设计了一种灵活的数据收集方法,利用 GPT-4 的强大语言能力和编程能力,创建了丰富的多模态图表数据集。

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

ChartLlama 的数据收集包括三个主要阶段:

  • 图表数据生成:ChartLlama 不仅从传统数据源收集数据,还利用 GPT-4 的能力产生合成数据。通过提供特定的特征,如主题、分布和趋势,从而引导 GPT-4 产生多样化和平衡的图表数据。由于生成的数据包含了已知的数据分布特性,这使得指令数据的构建更加灵活和多样。
  • 图表生成:接着,利用 GPT-4 强大的编程能力,使用开源库(如 Matplotlib)根据已生成的数据和函数文档来编写图表绘制脚本,生成了一系列精心渲染的图表。由于图表的绘制完全是基于开源工具,这种算法可以生成更多类型的图表用于训练。对比已有数据集,例如 ChatQA,只支持三种图表类型, ChartLlama 所构建的数据集支持多达 10 种图表类型,而且可以任意扩展。
  • 指令数据生成:除了图表渲染外,ChartLlama 还进一步利用 GPT-4 来描述图表内容,构造多种多样的问答数据,以确保训练过的模型能全面理解图表。这个全面的指令调整语料库,融合了叙述文本、问题 - 答案对以及图表的源代码或修改后的代码。过往的数据集只支持 1-3 种图表理解任务,而 ChartLlama 支持多达 10 种图表理解与生成任务,能够更好的帮助训练图文大模型理解图标中的信息

使用上述步骤,ChartLlama 已经建立了一个包含多种任务和多种图表类型的数据集。 不同类型的任务和图表在总数据集中所占的比例如下:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

请参考论文原文以获取更详细的指令和说明

实验结果

无论是传统任务还是新的任务,ChartLlama 都展现了最优越的性能。传统任务包括图表问答、图表总结,以及图表的结构化数据提取。对比 ChartLlama 和此前最先进的模型,结果如下图所示:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

研究人员还评估了ChartLlama独有的任务能力,包括生成图表代码、总结图表和编辑图表。他们还创建了相应任务的测试集,并与目前最强大的开源图文模型LLaVA-1.5进行了对比。以下是结果:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

研究团队在各种不同类型的图表中测试了ChartLlama的问答准确率,并将其与之前的SOTA模型Unichart和提出的基线模型进行了比较,结果如下:

深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽

总的来说,ChartLlama 不仅推动了多模态学习的边界,也为图表的理解和生成提供了更精确和高效的工具。无论是在学术写作还是在企业演示中,ChartLlama 都将使图表的理解和创造变得更加直观和高效,在生成和解读复杂视觉数据方面迈出了重要的一步。

有兴趣的读者可以前往论文原文,以获取更多研究内容

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4294

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

500

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2917

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

43

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

50

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号