0

0

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

PHPz

PHPz

发布时间:2024-07-16 16:23:14

|

389人浏览过

|

来源于IT之家

转载

无需任何修改转换,amd 显卡也跑起原版 cuda 程序了!

英国一家初创公司,推出了针对 AMD 的 CUDA 程序编译工具,而且免费商用。

工具一经发布就引发了网友们的广泛热议,并登顶了 HackerNews 热榜。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

该工具名为 SCALE,开发者给它的定位是一个 GPGPU(通用 GPU)编程工具包。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

目前已有大模型框架 llama-cpp 等 9 个程序通过测试,实现了正常运行。

与其他实现方式不同,SCALE 直接模拟 CUDA 工具包的安装,不需要转换成其他语言就能源到源地完成编译。

因此,像内联 PTX 这种英伟达专用的中间语言,SCALE 同样能够提供支持。

无需转换,让 AMD 跑起 CUDA

官网介绍显示,SCALE 主要有三个组成部分 —— 兼容的 nvcc 编译器、CUDA 运行时和驱动 API 的 AMD 实现,以及 ROCm 库。

其中编译器可以把用包括 nvcc、内联 PTX 等在内的 CUDA 专属语言编写的程序,直接编译成可在 AMD GPU 上运行的二进制代码。

ROCm 库则用来提供“CUDA-X”API,SCALE 在处理 cuBLAS 和 cuSOLVER 等库时均采用这种方式。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

SCALE 的关键创新点在于按原样接受 CUDA 程序,而不必将它们移植到另一种语言,兼容 nvcc 和 clang 等多种编译方式,同时现有的构建工具和脚本(如 cmake)可以正常工作。

按照官方的说法,SCALE 实现了对 CUDA 的完全兼容,让开发者无需针对不同 GPU 平台分别编写代码。

这一点与 AMD 推出的 HIP 存在很大不同,因为 HIP 是通过一定方式对 CUDA 代码进行重写,遇到复杂的宏可能无法正确理解,也不支持内联 PTX 等专属语言。

甚至 SCALE 作者认为,HIP 并不能解决 CUDA 兼容性问题。

另外,SCALE 的语言是 CUDA 的超集,提供一些可选的语言扩展,可以使希望摆脱 nvcc 的开发者更轻松、更高效地编写 GPU 代码。

作者表示,希望未来开发者可以只编写一次代码,就能不同硬件平台上运行,并正在着手通过弥合流行的 CUDA 编程语言和其他硬件供应商之间的兼容性差距。

目前,SCALE 对 AMD 各系列 GPU 的支持情况如下:

已支持:gfx1030(RX6000 系列)和 gfx1100(RX7000 系列)

“似乎有效”(seem to work):gfx1010(RX5000 系列)和 gfx1101

正在适配:gfx900(RX Vega 系列)

另外,作者测试了一些 CUDA 开源项目,并利用 SCALE 成功运行了 9 款 CUDA 应用。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

不过,SCALE 毕竟是个全新的项目,所以作者也准备了从安装到编译的一系列教程,给出了不同类型的示例程序。

教程关键步骤都附有相关代码,甚至包括了如何判断自己 GPU 的型号,可以说是非常细致了。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

如果使用过程中遇到问题,作者也介绍了常见故障的排除方式,同时还开通了 Discord 论坛,可与开发团队直接沟通交流。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

DeepSider
DeepSider

浏览器AI侧边栏对话插件,集成多个AI大模型

下载

打造出 SCALE 的这家初创公司名为 Spectral Compute,2018 年成立于英国,自称对 CPU 和 GPU 的架构有深入的了解,目标是帮助开发者高效利用算力资源。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

网友:挑战英伟达护城河?

有网友认为,如果 SCALE 真能有(宣传中的)效果,那么将对英伟达护城河发起挑战,让 AMD 与之展开直接竞争。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

不过,现在下定论未免为时过早,毕竟 SCALE 官方也承认目前和原版 CUDA 相比还存在一些缺陷。

而且开发者也明确表示有一些 CUDA API 和功能并不被支持,但也没有给出具体的列表。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

关于“AMD 方案”的更多不足,一名自称和 SCALE 团队交流过的网友表示,目前的 SCALE 还无法操作 TensorCore,也就意味着 AMD 上跑不了 FlashAttention 加速框架。

另外由于 N 卡上有强大的矩阵乘法单元,所以即使能编译运行,AMD 卡上的性能可能也不及 N 卡。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

更有网友认为,英伟达一家独大的原因是 AMD 不愿意投资让其 GPU 拥有更高的机器学习性能(而不只是拥有 CUDA 这一个优势)。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

即便能够高效运行,AMD 卡是否真的经济实惠且容易获得,同样是一个问题。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

还有一波网友的观点是,最大的问题不是技术上能不能运行,而是背后的法律问题。

这个问题同样引发了广泛的讨论,不过目前也暂未有定论。

有人认为 SCALE 像 ZLUDA(另一种在 AMD 上运行 CUDA 程序的方式)一样存在法律疑点,有可能招致英伟达的诉讼。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

具体来说,根据英伟达的 EULA 条款,CUDA SDK 只允许开发在 N 卡上运行的应用程序,这可能禁止了类似 SCALE 这样的兼容实现。

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

但立马就又有网友说,SCALE 并没有用到英伟达的“SDK”,何谈 SDK 使用协议呢?

初创公司硬刚英伟达:在 AMD 卡上模拟 CUDA,原版程序直接编译运行

总之,无论是技术不足还是法律问题,对于这个新工具的讨论都还在持续进行。

至于到底好不好用,这就要由开发者用脚投票了。

参考链接:

[1]https://docs.scale-lang.com/

[2]https://news.ycombinator.com/item?id=40970560

本文来自微信公众号:量子位(ID:QbitAI),作者:克雷西

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2930

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

62

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

659

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号