0

0

全新昆仑万维「天工」13B系列大模型,轻松实现商用,无需门槛

WBOY

WBOY

发布时间:2023-10-30 15:41:17

|

1557人浏览过

|

来源于机器之心

转载

10月30日,昆仑万维宣布开源百亿级大语言模型「天工」skywork-13b系列,并罕见地配套开源了600gb150b tokens的超大高质量开源中文数据集。

昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。

The download address for Skywork-13B (Model Scope) is available at: https://modelscope.cn/organization/skywork

Skywork-13B下载地址(Github): https://github.com/SkyworkAI/Skywork

除模型开源外,Skywork-13B系列大模型还将开源600GB150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这是目前最大的开源中文数据集之一。

同时,昆仑万维「天工」Skywork-13B系列大模型即将全面开放商用——开发者无需申请,即可商用。

130亿参数、两大模型、最大中文数据集之一、全面开放商用。昆仑万维「天工」Skywork-13B系列大模型堪称业内开源最彻底的百亿高质量商用模型。

The open source of the Skywork-13B series of large models will provide the best technical support for the application of large models and the development of the open source community, reducing the commercial threshold for large models, promoting the implementation of artificial intelligence technology in various industries, and contributing to the construction of the artificial intelligence ecosystem. We will work together with the open source community to explore the unknown world and create a better future.

两大模型 领先行业

昆仑万维「天工」Skywork-13B系列包括两大模型及150B高质量中文数据集。

  • Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。
  • Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。
  • Skypile/Chinese-Web-Text-150B数据集。该数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总token数量约为(1500亿),是目前最大得开源中文数据集之一。

In addition, the Skywork-13B series also discloses the evaluation methods, data ratio research, and training infrastructure optimization plans used in the model. It is hoped that these open-source contents can further inspire the community's understanding of large-scale model pre-training and promote the realization of Artificial General Intelligence (AGI).

五大特点 全面超越

昆仑万维「天工」Skywork-13B系列大模型在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。

Skywork-13B系列模型的五大特点:

最强参数表现:全面超越同等规模大模型 

本次开源的Skywork-13B系列模型在CEVAL, CMMLU, MMLU, GSM8K等几大权威评估基准中全面超越LLaMA2-13B等开源大模型,在同等规模大模型间取得最佳效果。(截止至10月25日数据)

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

全新昆仑万维「天工」13B系列大模型,轻松实现商用,无需门槛

最多训练数据:3.2T高质量的多语言训练数据

Skywork-13B系列大模型拥有130亿参数、3.2万亿高质量多语言训练数据。模型的生成能力、创作能力和数学推理能力提升明显。

最强中文语言建模能力:中文语言建模困惑度评测,超越所有中文开源模型

Skywork-13B系列大模型在中文语言建模方面非常出色,具备卓越的中文文创能力。在中文文本创作领域的评估中,Skywork-13B系列大模型展现了卓越的能力,特别是在科技、金融、政务、企业服务、文创、游戏等领域,其表现优于其他开源模型

全新昆仑万维「天工」13B系列大模型,轻松实现商用,无需门槛

图中展示了不同领域数据下对评估模型的困惑度,数值越低则代表该模型在该领域的建模能力越强。结果显示,天工13B在技术文章、电影、政务报告、游戏、金融、通用领域均表现出色

Frase
Frase

Frase是一款出色的长篇 AI 写作工具,快速创建seo优化的内容。

下载

最大中文开源数据集之一:150B Tokens高质量中文语料

Skywork-13B系列将配套开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这是目前最大的开源中文数据集之一。开发者可以最大程度地借鉴技术报告中大模型预训练的过程和经验,深度定制模型参数,有针对性的进行训练与优化。

最有诚意的开源商用:无需申请,即可实现商用

当前,在开源社区中,大部分中文模型并非完全可用于商业用途。通常情况下,开源社区用户需要经历繁琐的商业授权申请流程。在某些情况下,商业授权的发放还会受到公司规模、所处行业、用户数量等方面的明确规定,不得授权

昆仑万维对Skywork-13B系列开源的开放性和可商用性高度重视,将授权流程做到极简,取消对行业、公司规模、用户等方面的限制,目的是帮助更多对中文大模型感兴趣的用户和企业在行业中不断探索和进步。

Skywork-13B系列大型模型现已全面开放商用许可,用户只需下载模型并同意并遵守《Skywork模型社区许可协议》,无需再次申请授权即可将大型模型用于商业用途。我们希望用户能够更加便捷地探索Skywork-13B系列大型模型的技术能力,并在不同场景下探索商业化应用

推动开源生态繁荣,让更多开发者们参与到AIGC的技术发展中,在共创和共享中推动技术的提升。

在AI时代,开源生态建设蓬勃发展,成为实现AI和应用融合的重要环节。通过降低模型研发门槛和使用成本,最大化共享技术能力和经验,让更多企业和开发者参与到这次由AI引领的科技变革中来。昆仑万维的董事长兼CEO方汉是最早参与开源生态建设的资深开源专家之一,也是中文Linux开源的先驱之一。开源精神与AIGC技术的发展将在昆仑万维的战略中完美融合

All in AGIAIGC

昆仑万维的战略包括与AGI和AIGC合作

4月17日,昆仑万维发布了中国第一个真正实现智能涌现的国产大语言模型——「天工3.5」,并启动邀请测试。

5月19日,北京市经济和信息化局公布第一批《北京市通用人工智能产业创新伙伴计划成员名单》。昆仑万维凭借在AIGC领域的前沿探索和投资布局,成为第一批模型伙伴和投资伙伴。

8月23日,昆仑万维发布了国内第一款AI搜索产品,名为天工AI搜索

9月1日,计算机视觉和机器学习领域的国际顶级专家颜水成教授正式加盟昆仑万维,与昆仑万维创始人周亚辉一起出任天工智能联席CEO,并兼任昆仑万维2050全球研究院院长,负责前沿技术的研究。

在腾讯优图实验室联合厦门大学开展的多模态大语言模型测评中,昆仑万维天工大模型在9月5日取得了综合得分排名第一的成绩

9月25日,昆仑万维正式控股艾捷科芯,布局AI芯片。

今天,昆仑万维公司通过天工Skywork-13B系列大模型的开源行动,展示了对人工智能生态系统持续投资的坚定决心

昆仑万维集团介绍

2008年,昆仑万维创立。2015年,该公司在深交所上市。它从游戏领域起家,如今已经成为了一家集AII In AGI与AIGC等多元化业务于一体的企业。经过十余年的发展,昆仑万维一直致力于为全球用户提供领先的互联网产品和服务。目前,该公司正在积极探索人工智能领域的无限可能性。现在,昆仑万维已经逐渐构建了AGI与AIGC、海外信息分发与元宇宙、投资三大业务板块,业务覆盖全球100多个国家和地区,全球平均月活跃用户数接近4亿

凭借对科技发展趋势的超前预判,昆仑万维早在2020年便已开始布局AIGC领域。至今,已积累近三年的相关工程研发经验,并建立了行业领先的预训练数据深度处理能力,昆仑万维也在人工智能领域取得了重大突破,目前已形成AI大模型、AI搜索、AI游戏、AI音乐、AI动漫、AI社交六大AI业务矩阵,是国内模型技术与工程能力最强,布局最全面,同时全身心投入开源社区建设的企业之一。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6098

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

809

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1262

2024.03.01

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

0

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号