完成任务
spaCy 旨在帮助您完成实际工作——构建实际产品或获取实际见解。该库尊重您的时间,并尽量避免浪费它。它易于安装,并且其 API 简单且高效。
极速
spaCy 在大规模信息提取任务方面表现出色。它从头开始使用精心管理的 Cython 编写。如果您的应用程序需要处理整个 Web 转储,那么 spaCy 就是您想要的库。
强大的生态系统
自 2015 年发布以来,spaCy 已成为拥有庞大生态系统的行业标准。您可以从各种插件中进行选择,与您的机器学习堆栈集成并构建自定义组件和工作流程。
spaCy 旨在帮助您完成实际工作——构建实际产品或获取实际见解。该库尊重您的时间,并尽量避免浪费它。它易于安装,并且其 API 简单且高效。
spaCy 在大规模信息提取任务方面表现出色。它从头开始使用精心管理的 Cython 编写。如果您的应用程序需要处理整个 Web 转储,那么 spaCy 就是您想要的库。
自 2015 年发布以来,spaCy 已成为拥有庞大生态系统的行业标准。您可以从各种插件中进行选择,与您的机器学习堆栈集成并构建自定义组件和工作流程。
Edit the code & try spaCy
用于自定义管道的可重现训练 spaCy v3.0 引入了一个全面且可扩展的系统,用于 配置您的训练运行。您的配置文件将描述您的训练运行的每个细节,没有任何隐藏的默认值,使您可以轻松 重现您的实验 并跟踪更改。您可以使用快速入门小部件或 init config
# This is an auto-generated partial config. To use it with 'spacy train'
# you can run spacy init fill-config to auto-fill all default settings:
# python -m spacy init fill-config ./base_config.cfg ./config.cfg
[paths]
train = null
dev = null
vectors = null
[system]
gpu_allocator = null
[nlp]
lang = "en"
pipeline = []
batch_size = 1000
[components]
[corpora]
[corpora.train]
@readers = "spacy.Corpus.v1"
path = ${paths.train}
max_length = 0
[corpora.dev]
@readers = "spacy.Corpus.v1"
path = ${paths.dev}
max_length = 0
[training]
dev_corpus = "corpora.dev"
train_corpus = "corpora.train"
[training.optimizer]
@optimizers = "Adam.v1"
[training.batcher]
@batchers = "spacy.batch_by_words.v1"
discard_oversize = false
tolerance = 0.2
[training.batcher.size]
@schedules = "compounding.v1"
start = 100
stop = 1000
compound = 1.001
[initialize]
vectors = ${paths.vectors}从原型到生产的端到端工作流程 spaCy 的新项目系统为您提供从原型到生产的平滑路径。它让您可以跟踪所有这些 数据转换、预处理和
| 更多结果 | 管道 | 句法分析器 | 词性标注器 |
|---|---|---|---|
| 命名实体识别 | 95.1 | 97.8 | 89.8 |
en_core_web_trf (spaCy v3) | 92.0 | 97.4 | 85.5 |
en_core_web_lg (spaCy v3) | 91.9 | 97.2 | 85.5 |
en_core_web_lg (spaCy v2)
| 在 OntoNotes 5.0语料库上的完整管道准确性(报告在开发集上)。 | 命名实体识别系统 | OntoNotes |
|---|---|---|
| CoNLL ‘03 | 89.8 | 91.6 |
| spaCy RoBERTa (2020) | 88.8 | 92.1 |
| Stanza (StanfordNLP)1 | 89.7 | 93.1 |
Flair2