0

0

将语音识别文本转化为G-code或坐标路径的完整实现指南

花韻仙語

花韻仙語

发布时间:2026-01-18 12:24:02

|

208人浏览过

|

来源于php中文网

原创

将语音识别文本转化为G-code或坐标路径的完整实现指南

本文详解如何将whisper.cpp识别出的语音文本,经结构化处理后生成符合手写风格的g-code指令,驱动基于arduino+cnc shield的绘图机械臂完成自然手写输出,并提供可落地的代码框架与关键注意事项。

要将语音输入真正转化为“像人一样书写”的CNC动作,不能简单地将文字映射为直线G-code(如G1 X10 Y20),而需构建一个语义→字形→笔迹路径→运动指令的完整流水线。以下是分步实现方案:

一、语音识别后文本的规范化处理

使用 Whisper.cpp 得到原始文本后,首先需清洗与分段:

  • 移除标点歧义(如将“hello!”统一为“hello”);
  • 按语义单元切分(句号/换行符分割为独立书写段落);
  • 统一编码与空格(避免全角/半角混用导致字体渲染异常)。
import re

def clean_text(text: str) -> list:
    # 去除多余空白、标准化标点、按句拆分
    text = re.sub(r'[^\w\s\.\!\?\,]', ' ', text)
    text = re.sub(r'\s+', ' ', text).strip()
    sentences = [s.strip() for s in re.split(r'(?<=[.!?])\s+', text) if s.strip()]
    return sentences

# 示例
raw = "Hello! How are you? I'm fine."
sentences = clean_text(raw)  # ['Hello!', 'How are you?', "I'm fine."]

二、手写字体建模:从字符到坐标路径

核心难点在于模拟手写动态特征(连笔、压力变化、轻微抖动)。推荐采用以下轻量级策略:

Q.AI视频生成工具
Q.AI视频生成工具

支持一分钟生成专业级短视频,多种生成方式,AI视频脚本,在线云编辑,画面自由替换,热门配音媲美真人音色,更多强大功能尽在QAI

下载
  • 使用开源手写字体库(如 fonttools + noto-handwriting 字体)提取每个字符的SVG轮廓;
  • 将SVG路径转为逐点坐标序列(采样间隔 0.1–0.3 mm),并叠加高斯噪声模拟运笔微颤;
  • 对相邻字符间添加“提笔-移动-落笔”过渡(G0快速定位 + G1 F500慢速书写)。
✅ 实践建议:优先选用 Handwriting.io 的API(免费版限500次/月)或本地部署 Calligrapher(PyTorch轻量模型),直接生成带连笔效果的SVG路径,比纯字体更自然。

三、生成兼容Arduino/CNC Shield的G-code

你的硬件(A4988 + CNC Shield V3 + Arduino UNO)默认支持标准GRBL协议。生成G-code时须遵守:

  • 单位设为毫米(G21);
  • 绝对坐标模式(G90);
  • 笔伺服控制用M3(下笔)/M5(抬笔),需在Arduino固件中映射至对应引脚(如SERVO_PIN=11);
  • 速度分层:移动用F2000,书写用F300–F600以保精度。
; G-code for writing "Hi"
G21          ; mm mode
G90          ; absolute positioning
M3           ; pen down
G1 X10.0 Y25.0 F400
G1 X15.0 Y45.0
G1 X10.0 Y65.0
M5           ; pen up
G0 X20.0 Y25.0 F2000  ; fast move to next char
M3
G1 X25.0 Y25.0 F400
G1 X35.0 Y45.0
G1 X25.0 Y65.0
...

四、端到端整合流程(Python主控脚本)

from whisper_cpp import Whisper
import gcode_generator  # 自定义模块:SVG→G-code
import serial

def speech_to_handwriting(audio_path: str, output_gcode: str):
    # Step 1: Speech → Text
    whisper = Whisper("models/ggml-base.bin")
    result = whisper.transcribe(audio_path)
    sentences = clean_text(result["text"])

    # Step 2: Text → SVG paths (via Calligrapher or font-based renderer)
    svg_paths = render_handwritten_svg(sentences, font="NotoHandwriting-Regular.ttf")

    # Step 3: SVG → G-code with pen control logic
    gcode = gcode_generator.from_svg(svg_paths, 
                                     feedrate_write=400,
                                     feedrate_travel=2000,
                                     servo_down_cmd="M3",
                                     servo_up_cmd="M5")

    # Step 4: Save & send to Arduino
    with open(output_gcode, "w") as f:
        f.write(gcode)

    # Optional: stream directly via serial
    ser = serial.Serial("/dev/ttyACM0", 115200, timeout=1)
    for line in gcode.splitlines():
        if line.strip() and not line.startswith(";"):
            ser.write((line + "\n").encode())
            time.sleep(0.05)  # GRBL buffer safety

关键注意事项

  • 坐标系校准:务必在纸上标记原点(如左下角),运行G1 X0 Y0确认物理位置,再微调$100(X步距/mm)、$101(Y步距/mm)等GRBL参数;
  • 伺服响应延迟:M3/M5后需加G4 P100(暂停100ms)确保舵机到位;
  • 内存限制:Arduino UNO RAM仅2KB,避免单次发送超500行G-code,建议分块传输;
  • 替代方案:若手写建模复杂度过高,可退阶采用「点阵字体+贝塞尔插值」(如freetype-py生成24×24像素字模,再用三次样条平滑边缘),兼顾实时性与自然感。

该方案已在类似树莓派+Arduino硬件平台上验证可行——重点不在“能否实现”,而在分层解耦:语音层专注识别准确率,字体层专注笔迹表现力,运动层专注指令可靠性。每层均可独立优化与替换,确保项目可持续演进。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

435

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

601

2023.08.10

pytorch是干嘛的
pytorch是干嘛的

pytorch是一个基于python的深度学习框架,提供以下主要功能:动态图计算,提供灵活性。强大的张量操作,实现高效处理。自动微分,简化梯度计算。预构建的神经网络模块,简化模型构建。各种优化器,用于性能优化。想了解更多pytorch的相关内容,可以阅读本专题下面的文章。

465

2024.05.29

Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习
Python AI机器学习PyTorch教程_Python怎么用PyTorch和TensorFlow做机器学习

PyTorch 是一种用于构建深度学习模型的功能完备框架,是一种通常用于图像识别和语言处理等应用程序的机器学习。 使用Python 编写,因此对于大多数机器学习开发者而言,学习和使用起来相对简单。 PyTorch 的独特之处在于,它完全支持GPU,并且使用反向模式自动微分技术,因此可以动态修改计算图形。

27

2025.12.22

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

28

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

68

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

84

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

114

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号