工业级
自然语言
处理

在 Python 中

完成任务

spaCy 旨在帮助您完成实际工作——构建实际产品或获取实际见解。该库尊重您的时间,并尽量避免浪费它。它易于安装,并且其 API 简单且高效。

极速

spaCy 在大规模信息提取任务方面表现出色。它从头开始使用精心管理的 Cython 编写。如果您的应用程序需要处理整个 Web 转储,那么 spaCy 就是您想要的库。

强大的生态系统

自 2015 年发布以来,spaCy 已成为拥有庞大生态系统的行业标准。您可以从各种插件中进行选择,与您的机器学习堆栈集成并构建自定义组件和工作流程。

Edit the code & try spaCyspaCy v3.7 · Python 3 · via Binder

功能

  • 支持 75+ 种语言
  • 用于25 语言的
  • 84 个训练好的管道
  • 使用预训练的 transformers(如 BERT)进行多任务学习
  • 预训练的 词向量
  • 最先进的速度
  • 生产就绪的 训练系统
  • 基于语言学的 分词
  • 用于 命名实体识别、词性标注、依存句法分析、句子分割、文本分类、词形还原、形态分析、实体链接等组件
  • 可轻松扩展为 自定义组件和属性 支持在 PyTorch
  • TensorFlow 和其他框架中的自定义模型
  • 内置用于语法和 NER 的 可视化工具
  • 轻松 模型打包、部署和工作流程管理

了解更多
来自 spaCy 的开发者

Prodigy: Radically efficient machine teaching

Prodigy:极高效的机器教学 Prodigy 是一种 标注工具,效率极高,数据科学家可以自行进行标注,从而实现全新水平的快速迭代。无论您是在处理实体识别、意图检测还是图像分类,Prodigy 都可以帮助您

命令开始使用,或克隆项目模板以获得端到端工作流程。
约鲁巴语
textcat
GPU (transformer)
# This is an auto-generated partial config. To use it with 'spacy train' # you can run spacy init fill-config to auto-fill all default settings: # python -m spacy init fill-config ./base_config.cfg ./config.cfg [paths] train = null dev = null vectors = null [system] gpu_allocator = null [nlp] lang = "en" pipeline = [] batch_size = 1000 [components] [corpora] [corpora.train] @readers = "spacy.Corpus.v1" path = ${paths.train} max_length = 0 [corpora.dev] @readers = "spacy.Corpus.v1" path = ${paths.dev} max_length = 0 [training] dev_corpus = "corpora.dev" train_corpus = "corpora.train" [training.optimizer] @optimizers = "Adam.v1" [training.batcher] @batchers = "spacy.batch_by_words.v1" discard_oversize = false tolerance = 0.2 [training.batcher.size] @schedules = "compounding.v1" start = 100 stop = 1000 compound = 1.001 [initialize] vectors = ${paths.vectors}



依存句法分析器在 Universal Dependencies 树库上。

从原型到生产的端到端工作流程 spaCy 的新项目系统为您提供从原型到生产的平滑路径。它让您可以跟踪所有这些 数据转换、预处理和

训练和评估您的模型更快。

spaCy Tailored Pipelines

训练步骤,以便确保您的项目始终准备好进行自动化。它具有源资产下载、命令执行、校验和验证以及各种后端和集成的缓存功能。

  • 获取定制的 spaCy 管道,专为您的 NLP 问题而定制,由 spaCy 的核心开发者打造。
  • 简化。没有人比我们更了解 spaCy。向我们发送您的管道需求,我们将立即开始生产您的解决方案。
  • 生产就绪。spaCy 管道稳健且易于部署。您将获得一个完整的 spaCy 项目文件夹,该文件夹已准备好 spacy project run
  • 可预测。您将确切知道您将获得什么以及成本是多少。我们提前报价,让您在购买前试用,并且不会对我们端超出范围的费用收费——所有风险都在我们这边。

Advanced NLP with spaCy: A free online course

可维护。spaCy 是行业标准,我们将提供完整的代码、数据、测试和文档,以便您的团队可以根据您的需求变化重新训练、更新和扩展解决方案。 在本免费且交互式的在线课程中,您将学习如何使用 spaCy 构建高级自然语言理解系统,使用基于规则和机器学习的方法。它包括

更多结果管道句法分析器词性标注器
命名实体识别95.197.889.8
en_core_web_trf (spaCy v3)92.097.485.5
en_core_web_lg (spaCy v3)91.997.285.5

en_core_web_lg (spaCy v2)

OntoNotes 5.0语料库上的完整管道准确性(报告在开发集上)。命名实体识别系统OntoNotes
CoNLL ‘0389.891.6
spaCy RoBERTa (2020)88.892.1
Stanza (StanfordNLP)189.793.1

Flair2