0

0

基于深度学习的文本情感识别技术在5G不良消息安全管控平台中的应用

王林

王林

发布时间:2023-04-09 16:41:06

|

1954人浏览过

|

来源于51CTO.COM

转载

作者 | 孙越,单位:中移(杭州)信息技术有限公司 | 中国移动杭州研发中心

Labs 导读

随着5G网络的不断普及,大量用户开始接触并使用5G网络。5G网络不仅可以传送传统网络的语音、视频、文本等信息,还可以凭借更加低时延及高精准的定位能力,被使用在更多具有实用价值的应用场景中,如:战地实况信息、卫星定位导航等等。

免费语音克隆
免费语音克隆

这是一个提供免费语音克隆服务的平台,用户只需上传或录制一段 5 秒以上的清晰语音样本,平台即可生成与用户声音高度一致的 AI 语音克隆。

下载

网络信息时常会夹杂不良信息,如涉政信息、涉黄信息、涉黑信息、涉诈信息、商业广告消息等,且不良信息数量呈现逐年上升趋势,给用户造成了巨大骚扰。为了净化网络环境,有效管控不良信息传播,中国移动5G不良消息安全管控平台应运而生。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

数据来源:中国移动集团信息安全中心

1、5G不良信息管控平台的应用场景

该平台在面对繁杂的网络信息环境时,诸如文本消息、语音信息、视频信息、富媒体信息等,将信息归类为:涉政、涉黄、涉黑、涉诈、商业广告消息、正常消息等等,再通过对应策略进行及时拦截,并根据不良消息的严重程度进行后续惩处处理,从根源净化网络环境,营造良好的网络空间。

图片

2、现有5G不良信息管控平台的技术要点

该平台主要通过以下几种方法对不良信息进行拦截:

①设定一级关键词:一级关键词通常设置为一些极度敏感词汇,若用户发送信息中包含一级关键词内容,即立即拦截该信息,信息内容无法下发,并对该用户进行标记。

②设定普通关键词: 普通关键词设置为一些较为敏感词汇,若用户发送信息中包含普通关键词内容,且在一定时间内,用户发送该敏感消息的次数超过系统预先设定的拦截阈值,则系统会将用户拉入黑名单,在一定时间内,该用户无法使用完整5G网络服务。

③设定复杂文本信息监控:如用户发送PDF文件,其中该文件中包含文字和图片,将文件中文字提取出来,过滤一级关键词和普通关键词机制,图片则进行富媒体机制过滤,分别根据文本和图片的过滤结果,采用从重处置的原则,作为该文件的处置结果。

3、现有5G不良管控平台的技术弱点

现有5G不良消息安全管控平台的过滤机制仅能过滤指定且有限的短语、短句,而随着网络普及,新鲜词汇每天都会大量涌现,仅靠人工手动添加词汇,已经无法做到及时、快速的更新词汇库。而且当今大量用户在发送文本信息时,虽然整个文本信息没有违规词汇,但表达的思想及情感却可能带有大量不良情感倾向,仅靠词汇及短句无法成功拦截不良情感内容。因此,利用文本情感分析,将富含不良情感倾向的句子进行送审拦截,可以进一步加强不良信息管控的效果,减少垃圾信息对用户的侵蚀与毒害。

通过建立包含网络流行短句及新闻消息的文本情感库,将文本中富含的情感分为三类:积极情感、中性情感、消极情感,并按照这三种分类对每一个文本加上相应标签,利用深度学习网络对情感库中文本进行训练,便可将训练好的模型用在5G不良消息管控平台中对不良情感消息进行拦截。

4、基于深度学习的5G不良管控系统技术实现细节

该技术中包含三大主体:jieba分词系统、词组向量化,文本情感识别算法,各个主体之间的交互如下图:

图片

各模块交互流程图

通过爬虫技术爬取网络词语及新闻消息作为原始文本,并将原始文本按照8:2的比例分为训练集和测试集,对训练集中的文本信息进行标签化,然后将测试集中文本信息通过jieba分词工具进行分词处理,比如:他来到移动杭研大厦。通过jieba分词工具分词后,结果为:他/来到/移动/杭研/大厦,最后将分词后数据组建成语料库。由于训练集和测试集文本信息量很大(通常在百万级数据),所以会导致分词后语料库中的数据量也十分庞大(千万级数据量)。虽然可以将这些语料以编号的形式储存在语料库中,但由于数据量庞大,极易出现维度灾难。因此,针对文本信息中出现的语气助词,比如:“了”、“的”、“吗”等等,这些词虽然出现十分频繁,但对情感作用几乎没有贡献,我们会选择在语料库中剔除这些词组,达到减少维度的目的。

我们将训练集中已经向量化的词组送入深度学习网络中进行学习训练,获取相应模型,最后将测试集中的数据放入到模型中查看对应的识别结果,当该模型能够获得较好的正确率时,该模型联接到5G不良管控平台,用户发送端到端的信息进行过滤。在过滤过程中,若发现不良信息及时进行拦截,使5G不良信息管控系统对于不良信息的拦截更加系统、全面。

图片

具体步骤如下:

  1. 从网上爬取原始文本语料,并将原始文本进行预处理,包括:去除语气词,删除文本中出现的标点符号、空白区域,删除文本中出现的终止词、稀疏词和特定词;使用jieba库进行分词,将文本句子按照词组精确地切开,分成一个一个单独的词组;
  2. 将爬取到的文本数据集按照一定比例划分成训练集和测试集,对训练集中文本句子进行人工标注,分为:积极情感、消极情感、中性情感。并分别使用jieba库对训练集和测试集内文本句子进行分词,将分词后的训练集构建成语料库;
  3. 将步骤1中词组进行向量化,让每一个分词映射为一个多维的连续值向量,得到整个数据集的词向量矩阵。
  4. 通过先抽取情感词所在的子句,减少句子的复杂度,再在子句中根据各种特征预测情感对象的位置,然后再从相应位置进行情感抽取。情感抽取是为了获取文本中有价值的情感信息,判断一个单词或词组在情感表达中扮演的角色,包括情感表达者识别、评价对象识别、情感观点词识别等任务。
  5. 通过将上述操作获得的情感向量送入到深度学习网络获得文本情感识别模型,再将测试集中情感向量送入该模型中,查看测试结果,并将检测结果正常的数据继续进行常规策略过滤,如:文本匹配、富媒体识别等。  

5、融入深度学习的5G拦截系统的优点

与现有5G拦截系统相比,融入深度学习的5G拦截系统具有以下优点:

  • 利用深度学习技术提供高可靠性、高真实性的有效鉴别;
  • 利用深度学习技术进行情感识别,人工介入少,工作效率高;
  • 利用文本情感识别,可有效补充关键词拦截的不足;
  • 利用文本情感识别,可将在策略中及时自动更新补充新的词条信息,提高效率。

写在最后:

目前,深度学习应用领域十分广阔,依靠其重复训练、自我学习的方式,可以大大降低人工的工作量,提升效率及准确度。不仅适用于上述不良信息拦截系统,相信在不久的将来,该技术在其他新兴领域也会大放异彩。当然,深度学习本身也不尽完美,并不能解决所有棘手问题。正因为如此,我们应该继续将深度学习技术投入到新场景、新领域以期获得新突破,共创美好的未来智能生活。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

38

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

83

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

169

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

34

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 13.2万人学习

CSS3 教程
CSS3 教程

共18课时 | 7万人学习

Rust 教程
Rust 教程

共28课时 | 6.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号