0

0

千亿级超大规模向量数据库正加速AI进化

WBOY

WBOY

发布时间:2023-11-24 20:46:57

|

1608人浏览过

|

来源于搜狐

转载

在大型模型展开“诸神之战”时,出现了一个致命的问题,让那些尝试的用户无法忍受。很多大型模型都存在一个普遍的问题,即“一本正经地胡说八道”,这就是我们常说的“ai幻觉”。那么,如何让大型模型变得更准确、更聪明,而不是胡言乱语呢?除了模型框架、数据和算法之外,还有一个关键的应用,那就是向量数据库!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

千亿级超大规模向量数据库正加速AI进化

数据中枢背后

关于向量数据库与大模型的关系以及其重要性,有多种不同的解读。一个比较形象的说法是,如果将大模型比喻为一个容易遗忘的大脑,那么向量数据库就相当于其中的“海马体”,主要负责存储和定向记忆等功能。从解剖学的角度来看,如果将一个人的海马区切除,该人将失去长时记忆的能力,并无法感知声音、光线、味觉等信息

说白了,大模型之所以有幻觉,根本原因是大模型的向量数据库不够强大,导致大模型只能从既定的数据中查找答案,推理的结果常常泛泛而谈,或者胡诌,极度影响体验。所以,大模型聪明与否,要看向量数据库是否给力,这也是腾讯云为什么发力向量数据库,构建AGI“数据中枢”的根本原因。

有人可能会想:我在数据中台层面提升数据调度能力,传统关系型数据库也可以支持呀?但现实情况是,企业在搭建和使用大模型时,首先需要把海量数据安全、高效地接入大模型,在诸多复杂数据中,适合关系型数据库的结构化数据仅有20%,其余80%都是文本、图像、视频、音频等非结构化的数据。而向量数据库可以把复杂的非结构化数据处理成多维逻辑的坐标值,与大模型进行连接,数据处理的效率要比传统数据库提升10倍。

同时,向量数据库也可以作为外部知识库给大模型输送最新、最准确、最全面的信息,高效应对实时问答,并且让大模型拥有长期记忆,避免聊天时的断片。如此一来,向量数据库与大模型是最 佳搭档的说法,就比较容易理解了。

专业向量数据库VS传统数据库向量插件

事实上,把向量数据库作为大模型背后的主要赛道,领先企业已经走在创新征程中了。初步统计,致力于向量数据库的厂商已经有50多家。而从具体的技术路线来看,主要分两大类:一类是专业的向量原生数据库,从诞生开始就为向量设计,可以做向量数据结构的存储、解锁、查询;另一类是传统数据库上加了一个向量插件,使其能够支持向量的检索。

对比分析,两种方式各有应用场景,比如:企业刚开始时候,数据量不大,不想引入新数据库,那就可以选择传统数据库+向量插件的方式。但如果企业数据量较大,想构建更聪明的大模型,对性能和未来发展有更高要求,那选择像腾讯云这样专业的向量数据库产品,显然会更适合。

在向量数据库的应用角度来看,还存在着更多的潜力。目前,许多企业正在使用向量数据库来解决大型模型的虚幻感以及知识增强等方面的弱点。然而,未来的发展不仅局限于这些能力,还可以在图像查询方面有更出色的表现。例如,可以对手机中的照片进行查询,类似于图像搜索引擎,这实际上也是一种向量查询

专业向量数据库并不能取代传统数据库,尤其是在大型场景下。传统关系型数据库和向量数据库可以相互协同发展、相互补充。向量数据库通过向量化数据来满足传统关系型数据库难以处理的大规模数据、低时延高并发检索、模糊匹配等领域的需求。向量数据库只支持新的数据类型,并不存储原始数据,而传统数据库支持数值、字符串、时间等传统数据类型。传统数据库支持的数据规模相对较小,最多只能支撑1亿条数据,而向量数据库可以支撑大规模的数据,底线是千亿条数据。传统数据库的查询方式为精确查找,要么符合条件,要么不符合;而向量数据库则是近似查找,查询结构和输入条件要尽可能相似,对计算能力要求也更高。上层应用程序可以使用统一的API方式,更适合于大规模人工智能应用程序的部署和使用

Digram
Digram

让Figma更好用的AI神器

下载

智能进化

大模型并不是从零开始,向量数据库也不是。那么,向量数据库到底是怎么发展起来的?腾讯云数据库团队曾经有过深刻的思考!

腾讯云数据库副总经理罗云认为,大模型的本质不应该是一个无限大的存储体,而是一个带有智算能力的平台,将之前只有编程语言才能触达的底层计算能力,用自然语言去调度,这应该是一个令人兴奋的奇点。兴奋之余再次冷静思考,人类在完成数字化改造过程中,除了计算平台,还有其他的可能性吗?到底什么才是AGI时代的技术内核?总结发现,底层数据的智能化流通才是撬动数据中枢的金钥匙!

如今,当企业有了通用的智能计算能力后,底层的数据可以快速流动起来,我们可以把文件存在文件系统,我们可以调用关系型数据库里面的表格数据、非关系型里面的KV数据,所有数据都可以通过智能化的方式流通和联动。但要想让数据和人类对话,光有计算平台还不够,还要有一个智能数据平台,可以用自然语言把数据取出来,然后交给大模型去计算,而要达成这样的目的,向量数据库就成为一个重要的枢纽。

既然向量数据库如此重要,我们应该如何通过智能化升级,在传统数据库经验基础上与数据平台对话呢?这正是腾讯云数据库的特长!在腾讯云向量数据库技术峰会上,腾讯云宣布与第三方机构合作完成了一项测试,证明腾讯云向量数据库可以支持千亿级别规模的数据,并且显著提高了每秒查询率,达到了500万的峰值能力

目前,腾讯云向量数据库已经有大量用户,包括百川智能、好未来、销售易等公司。最近,他们和百川一起做了个 AGI 启航计划,赠送向量数据库实例及 Baichuan2 大模型 400 万的 Tokens。

通过Embedding、向量索引、分布式系统架构、硬件加速等核心技术,腾讯云向量数据库可以有效解决文本、图像、视频,包括生物制药、风控、音频、多模态等广阔场景的特定问题。比如:利用Embedding技术将高维度的数据(例如文字、 图片、 音频)映射到低维度空间 ,即把图片、声音和文字转化为向量来表示,将这些向量存储起来就构成向量数据库,实现Embedding过程的方法包括神经网络、 LSH(局部敏感哈希算法)等。

腾讯从2019年开始致力于提升向量数据库的能力,引领企业业务迈向AGI时代。至今,腾讯云已经为40多家内部客户提供服务,每天支持的向量数据检索次数超过了1600亿次。同时,腾讯云还为1000家外部客户提供服务,增长速度可谓惊人

放眼未来,AGI正在加速进化,这中间有惊喜,也有挑战。腾讯云数据库将一如既往,不断探索,引领创新。“Road to AGI,Together on the Path”——这句话完美地概括了腾讯云技术团队的当前状态!

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

328

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

235

2023.10.07

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1500

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

623

2023.11.24

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.2万人学习

进程与SOCKET
进程与SOCKET

共6课时 | 0.4万人学习

PHP自制框架
PHP自制框架

共8课时 | 0.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号