Natural 是一个轻量级 JavaScript NLP 库,提供分词、词干提取、文本分类、相似度测量和拼写检查等基础功能,适用于简单文本处理任务;compromise 则是无依赖、极简的语法解析库,支持中英文,适合浏览器环境。

JavaScript 本身不内置自然语言处理(NLP)能力,但可通过轻量级库在浏览器或 Node.js 环境中完成基础 NLP 任务,比如分词、词性标注、情感分析、关键词提取等。它不适合替代 Python 的 spaCy 或 Transformers,但在前端文本交互、实时校验、低延迟本地处理等场景很实用。
适合 JS 的主流 NLP 库有哪些?
目前较成熟、维护活跃的开源选择有:
- compromise:极简设计,无依赖,支持中文(需额外插件)、英文的语法解析、实体识别、时态还原等;体积小(
- nlp-compromise(已并入 compromise):旧名,现统一为 compromise。
- natural:Node.js 为主,提供 TF-IDF、朴素贝叶斯分类、Levenshtein 距离、词干提取(Porter Stemmer)等;不支持浏览器直接使用(含 fs 模块)。
- ml-nlp:专注机器学习辅助的文本处理,如文本向量化、余弦相似度计算,适合做简单语义匹配。
- @nlpjs/* 系列(如 @nlpjs/ner、@nlpjs/sentiment):模块化强,支持多语言、意图识别与槽位填充,适合构建聊天机器人;体积较大,建议按需引入。
中文 NLP 在 JS 中怎么处理?
中文分词是难点,JS 生态缺乏像 jieba 那样成熟的库,但仍有可行方案:
- 用 compromise-zh(compromise 的中文插件)做基础分词和词性粗标,适合简单场景(如提取名词、动词)。
- 调用轻量 API,例如 结巴JS(jieba-js) —— 是 jieba 的 WebAssembly 移植版,支持浏览器分词,但初始化稍慢、词典体积大(约 2MB)。
- 服务端预处理:把分词/NER/情感等重逻辑放在后端(Python + FastAPI),前端只发请求、收结果,JS 专注渲染与交互。
能做什么?不能做什么?
JS 的 NLP 适合这些事:
立即学习“Java免费学习笔记(深入)”;
- 用户输入实时纠错(拼写检查 + 编辑距离)
- 表单内容关键词高亮或自动打标签
- 聊天界面中的基础情感倾向提示(? / ?)
- 文档内名词/人名快速抽取(配合 highlight.js 做可视化)
不太适合这些事:
- 训练自定义模型(没 TensorFlow.js 那么底层,也缺训练工具链)
- 长文本深度语义理解(如阅读理解、摘要生成)
- 高精度命名实体识别(尤其医疗、法律等垂直领域)
基本上就这些。选库前先明确需求:要跑在浏览器还是服务端?是否必须离线?对准确率和响应速度的要求如何?小项目用 compromise 起手最快,复杂需求建议前后端分工。











