0

0

使用Schema文件:无需数据库连接生成SQL的LLM实践

聖光之護

聖光之護

发布时间:2025-11-12 13:51:23

|

758人浏览过

|

来源于php中文网

原创

使用schema文件:无需数据库连接生成sql的llm实践

本文旨在探讨如何在不建立实际数据库连接的情况下,利用大型语言模型(LLM)根据数据库Schema生成SQL语句。我们将重点介绍通过直接向LLM提供Schema描述来绕过传统数据库连接依赖的方法,并提供详细的实现步骤和代码示例,帮助开发者在保障安全性和灵活性的同时,实现高效的SQL生成。

引言:SQL生成与数据库连接的挑战

在构建基于LLM的应用时,例如智能客服、数据分析助手或自动化报告工具,我们经常需要LLM根据用户自然语言的提问来生成对应的SQL查询。传统的SQLDatabaseChain等工具通常依赖于SQLDatabase.from_uri方法,这要求提供一个有效的数据库连接URI,以便LLM能够访问数据库的实际Schema信息并执行查询。

然而,在许多场景下,我们可能面临以下需求:

  1. 安全性考量: 不希望将生产数据库的连接信息直接暴露给LLM或其运行环境。
  2. 性能优化: 避免每次生成SQL时都建立和维护数据库连接,尤其是在高并发场景下。
  3. 开发与测试: 在没有实际数据库环境的情况下,进行SQL生成逻辑的开发和测试。
  4. 纯SQL生成: 目标仅仅是生成SQL语句,而非执行查询或获取数据。例如,生成DDL语句或作为代码审查的一部分。

这些需求促使我们探索一种无需实际数据库连接,仅凭数据库Schema信息就能生成SQL的方法。

理解SQLDatabase与连接的依赖

LangChain中的SQLDatabase类旨在提供一个与数据库交互的抽象层。其核心功能之一是能够自省(introspect)数据库的Schema,即获取表名、列名、数据类型、主键外键关系等信息。SQLDatabase.from_uri()方法正是通过建立一个数据库连接来完成这一自省过程。这意味着,如果你想利用SQLDatabase对象来获取Schema信息,理论上它就需要一个可用的数据库连接。

问题在于,如果我们只希望LLM基于Schema生成SQL,而不需要它实际连接数据库执行查询,那么这个连接就显得多余,甚至带来了安全和性能上的负担。

方案一:直接向LLM提供数据库Schema描述

最直接且彻底避免数据库连接的方法,是绕过SQLDatabase对象,将数据库的Schema信息作为纯文本直接传递给LLM。LLM的强大之处在于其对自然语言的理解和生成能力,它完全可以从文本描述中学习数据库结构,并据此生成SQL。

核心思想

LLM在生成SQL时,真正需要的是数据库的结构信息(表、列、关系等),而不是一个活跃的数据库连接。我们可以将这些结构信息以清晰、简洁的文本格式提供给LLM,作为其上下文的一部分。

优点

  • 彻底无连接: 完全避免了任何形式的数据库连接,包括内存数据库。
  • 高安全性: 数据库凭据永不暴露。
  • 高灵活性: 可以根据需要提供任意详细程度的Schema描述。
  • 简化部署: 无需担心数据库驱动或连接池配置。

实现步骤

  1. 获取数据库Schema:

    神器集
    神器集

    发现最酷的互联网产品工具和智能神器

    下载
    • 最理想的方式是获取数据库的CREATE TABLE语句,这些语句精确定义了表结构、列类型、约束和关系。
    • 如果无法获取DDL,可以手动总结或使用数据库工具导出表结构描述(例如,DESCRIBE TABLE的输出)。
    • 对于复杂的数据库,可以只提供与用户查询相关的部分Schema,以减少LLM的上下文负担。
  2. 构建Prompt:

    • 设计一个清晰的Prompt模板,将Schema信息作为系统指令或用户输入的一部分。
    • 明确告知LLM其角色(SQL生成助手)、任务(只生成SQL,不执行)、以及输出格式要求(例如,只返回SQL语句,不包含解释)。
  3. 使用LLM进行SQL生成:

    • 直接调用LLM的API(如OpenAI API、Anthropic API等),或通过LangChain的Runnable接口来构建调用链。

示例代码

以下是一个使用LangChain和OpenAI模型,通过直接提供Schema文本来生成SQL的示例:

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
import os

# 确保已设置OpenAI API密钥
# os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"

# 1. 模拟数据库Schema(使用CREATE TABLE语句)
# 实际应用中,这部分Schema可以从文件加载或动态生成
db_schema = """
CREATE TABLE users (
    user_id INTEGER PRIMARY KEY,
    username TEXT NOT NULL,
    email TEXT UNIQUE,
    registration_date DATE
);

CREATE TABLE products (
    product_id INTEGER PRIMARY KEY,
    product_name TEXT NOT NULL,
    price REAL NOT NULL,
    stock_quantity INTEGER
);

CREATE TABLE orders (
    order_id INTEGER PRIMARY KEY,
    user_id INTEGER,
    order_date DATE,
    total_amount REAL,
    FOREIGN KEY (user_id) REFERENCES users(user_id)
);
"""

# 2. 构建Prompt模板
# System Prompt 明确了LLM的角色和任务
prompt_template = ChatPromptTemplate.from_messages(
    [
        ("system", "你是一个SQL生成助手。请根据以下数据库Schema生成SQL查询。不要执行查询,只返回SQL语句,不包含任何解释或额外文本。Schema:\n{schema}"),
        ("user", "{question}")
    ]
)

# 3. 初始化LLM
# 选择一个合适的LLM模型,例如GPT-4或GPT-3.5-turbo
llm = ChatOpenAI(model="gpt-4", temperature=0) # temperature=0 有助于生成更确定的结果

# 构建LangChain的链,将Prompt、LLM和输出解析器连接起来
sql_generation_chain = prompt_template | llm | StrOutputParser()

# 提问并生成SQL
user_question_1 = "查询所有在2023年注册的用户,并按注册日期降序排列。"
generated_sql_1 = sql_generation_chain.invoke({"schema": db_schema, "question": user_question_1})
print(f"用户问题: '{user_question_1}'")
print(f"生成的SQL:\n{generated_sql_1}\n")

user_question_2 = "查找所有订单总金额大于1000的用户,并显示他们的用户名和订单数量。"
generated_sql_2 = sql_generation_chain.invoke({"schema": db_schema, "question": user_question_2})
print(f"用户问题: '{user_question_2}'")
print(f"生成的SQL:\n{generated_sql_2}\n")

user_question_3 = "更新产品ID为5的产品的库存数量为50。"
generated_sql_3 = sql_generation_chain.invoke({"schema": db_schema, "question": user_question_3})
print(f"用户问题: '{user_question_3}'")
print(f"生成的SQL:\n{generated_sql_3}\n")

代码解释:

  • 我们首先定义了一个db_schema字符串,它包含了数据库的DDL语句。
  • ChatPromptTemplate用于构建一个包含系统指令和用户问题的Prompt。{schema}和{question}是占位符,分别用于插入数据库Schema和用户提问。
  • ChatOpenAI实例化了一个LLM客户端。
  • 通过管道操作符|,我们将Prompt、LLM和StrOutputParser(用于将LLM的输出解析为字符串)连接成一个可执行的链。
  • 最后,调用invoke方法,传入Schema和用户问题,即可获得LLM生成的SQL语句。

这种方法完全依赖于LLM对文本的理解能力,避免了任何实际的数据库连接。

方案二:利用内存SQLite数据库作为Schema载体(折衷方案)

虽然问题明确要求避免实际连接,但如果你的架构设计强烈依赖于LangChain的SQLDatabase对象,并且需要利用其get_table_info()等方法来提取Schema,但又不想连接外部生产数据库,那么使用内存SQLite数据库作为占位符是一个折衷方案。

注意: 此方法仍然建立了一个(本地、临时)数据库连接,与“无连接”的严格定义略有冲突,但它避免了连接外部的真实数据库。

实现思路

  1. 创建一个临时的内存SQLite数据库连接。
  2. 在这个内存数据库中执行DDL语句,手动创建你希望LLM了解的表结构。
  3. 将这个包含了Schema的SQLDatabase对象传递给LangChain的SQL Agent。

示例代码(作为参考,非严格意义上的“无连接”)

from langchain_openai import ChatOpenAI
from langchain_community.utilities import SQLDatabase
from langchain_community.agent_toolkits import create_sql_agent
from sqlalchemy import create_engine, text
import os

# 确保已设置OpenAI API密钥
# os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"

# 1. 创建一个临时的内存SQLite数据库引擎
engine = create_engine("sqlite:///:memory:")
# 2. 基于这个引擎创建SQLDatabase对象
db = SQLDatabase(engine)

# 3. 在内存数据库中执行DDL语句来模拟Schema
ddl_statements = """
CREATE TABLE users (
    user_id INTEGER PRIMARY KEY,
    username TEXT NOT NULL,
    email TEXT UNIQUE,
    registration_date DATE
);

CREATE TABLE products (
    product_id INTEGER PRIMARY KEY,
    product_name TEXT NOT NULL,
    price REAL NOT NULL,
    stock_quantity INTEGER
);

CREATE TABLE orders (
    order_id INTEGER PRIMARY KEY,
    user_id INTEGER,
    order_date DATE,
    total_amount REAL,
    FOREIGN KEY (user_id) REFERENCES users(user_id)
);
"""
with engine.connect() as connection:
    connection.execute(text(ddl_statements))
    connection.commit()

# 现在db对象包含了这些表的Schema信息,可以被LangChain的SQL Agent使用
# 我们可以打印出SQLDatabase对象自省到的Schema信息
print("Schema info from SQLDatabase object:")
print(db.get_table_info())

# 初始化LLM
llm = ChatOpenAI(model="gpt-4", temperature=0)

# 创建SQL Agent,它将使用db对象来获取Schema信息
# 注意:如果Agent尝试执行查询,它会在这个内存数据库上执行。
# 如果目标只是生成SQL,可能需要自定义Agent或其工具,限制其执行能力。
agent_executor = create_sql_agent(llm, db=db, agent_type="openai-tools", verbose=True)

# 提问并让Agent生成SQL
user_question = "查询所有在2023年注册的用户,并按注册日期排序。"
print(f"\n用户问题: '{user_question}'")
response = agent_executor.invoke({"input": user_question})
# 默认的SQL Agent可能会尝试执行查询,我们需要从verbose输出中提取生成的SQL
# 或者通过自定义Agent工具来只返回SQL
print(f"Agent响应:\n{response['output']}")

# 另一个例子:更新操作
user_question_update = "将产品ID为10的产品的库存数量增加20。"
print(f"\n用户问题: '{user_question_update}'")
response_update = agent_executor.invoke({"input": user_question_update})
print(f"Agent响应:\n{response_update['output']}")

代码解释:

  • 我们使用sqlalchemy.create_engine("sqlite:///:memory:")创建了一个纯内存的SQLite数据库。
  • 然后,通过connection.execute(text(ddl_statements))在这个内存数据库中创建了表结构。
  • SQLDatabase(engine)实例化了一个SQLDatabase对象,它现在“知道”这些表的Schema。
  • `

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

686

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

324

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

348

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1137

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

359

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

737

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

577

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

420

2024.04.29

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 4万人学习

Pandas 教程
Pandas 教程

共15课时 | 1.0万人学习

ASP 教程
ASP 教程

共34课时 | 3.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号