0

0

如何在 LangChain 中获取文档的嵌入向量(Embedding)

心靈之曲

心靈之曲

发布时间:2026-01-31 12:26:08

|

285人浏览过

|

来源于php中文网

原创

如何在 LangChain 中获取文档的嵌入向量(Embedding)

在 langchain 中,可通过调用嵌入模型的 `embed_query()` 方法对文档内容重新计算嵌入向量;faiss 等向量数据库本身不直接暴露已存储的原始嵌入,因此推荐使用与构建索引时相同的 `embeddings` 实例对 `page_content` 进行一致编码

LangChain 的向量数据库(如 FAISS、Chroma 等)主要面向检索优化,其内部存储的嵌入向量通常以二进制或索引结构形式封装,并未提供公开接口直接读取原始浮点数组。因此,获取文档 embedding 的标准且可靠方式是:复用构建向量库时所用的 Embeddings 实例,对文档文本内容重新编码

例如,在你的代码中,doc1 和 doc2 的嵌入可如下获取:

# 复用同一 embeddings 实例,确保编码一致性
emb1 = embeddings.embed_query(doc1.page_content)  # List[float], e.g., length 384
emb2 = embeddings.embed_query(doc2.page_content)

print("Embedding shape of doc1:", len(emb1))
print("First 5 values of doc1 embedding:", emb1[:5])

关键注意事项

  • 必须使用同一个 embeddings 实例(而非新建),否则因模型权重、tokenizer 或归一化逻辑差异,可能导致嵌入不一致;
  • embed_query() 适用于单条文本;若需批量处理多文档,可改用 embed_documents()(部分嵌入类支持,如 HuggingFaceEmbeddings):
    texts = [doc1.page_content, doc2.page_content]
    embeddings_list = embeddings.embed_documents(texts)  # List[List[float]]
  • 不要尝试从 FAISS 对象中“反向提取”嵌入——db.index(如 FAISS 的 faiss.Index)底层为 C++ 索引结构,不提供 Python 可读的原始向量访问接口;强行解析易出错且破坏封装性

? 延伸建议:若业务中频繁需要文档 embedding(如做聚类、可视化或自定义相似度计算),可在构建向量库前预先计算并缓存:

uBrand
uBrand

一站式AI品牌创建平台,在线品牌设计,AI品牌策划,智能品牌营销;uBrand帮助创业者轻松打造个性品牌!

下载
for doc in docs:
    doc.embedding = embeddings.embed_query(doc.page_content)  # 手动挂载到 metadata 或自定义字段

这样既保持可追溯性,又避免重复计算。

总之,LangChain 的设计哲学是“embedding 是可再生的确定性过程”,而非需持久化提取的黑盒产物——只要复用相同模型与参数,结果完全可重现。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1157

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

215

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2022

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

22

2026.01.19

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

360

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2083

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

349

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

256

2023.09.05

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

30

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号