数据与图表
spaCy 是一个免费、开源的库,用于 Python 中的高级自然语言处理 (NLP)。它专为生产环境使用而设计,帮助您构建处理和“理解”大量文本的应用程序。它可以用于构建信息提取或自然语言理解系统。
功能概述
我应该在什么时候使用 spaCy?
基准测试
spaCy v3.0 引入了基于 transformer 的管道,使 spaCy 的准确性达到当前最先进水平。您还可以使用 CPU 优化的管道,准确性较低,但运行成本更低。
| 更多结果 | 管道 | 句法分析器 | 词性标注器 |
|---|---|---|---|
| 命名实体识别 | 95.1 | 97.8 | 89.8 |
en_core_web_trf (spaCy v3) | 92.0 | 97.4 | 85.5 |
en_core_web_lg (spaCy v3) | 91.9 | 97.2 | 85.5 |
en_core_web_lg (spaCy v2)
| 在 OntoNotes 5.0语料库上的完整管道准确性(报告在开发集上)。 | 命名实体识别系统 | OntoNotes |
|---|---|---|
| CoNLL ‘03 | 89.8 | 91.6 |
| spaCy RoBERTa (2020) | 88.8 | 92.1 |
| Stanza (StanfordNLP)1 | 89.7 | 93.1 |
在 OntoNotes 5.0 和 CoNLL-2003 语料库上的命名实体识别准确性。请参阅 NLP-progress 以获取更多结果。项目模板:benchmarks/ner_conll03。1. Qi et al. (2020)。2. Akbik et al. (2018)。
| 依存句法分析系统 | UAS | LAS |
|---|---|---|
| CoNLL ‘03 | 95.1 | 93.7 |
| Mrini et al. (2019) | 97.4 | 96.3 |
| Zhou and Zhao (2019) | 97.2 | 95.7 |
依存句法分析准确性在 Penn Treebank 上。请参阅 NLP-progress 以获取更多结果。项目模板:benchmarks/parsing_penn_treebank。
速度比较
我们比较了不同 NLP 库的速度,以每秒字数 (WPS) 为单位衡量 - 数字越高越好。评估是在 10,000 条 Reddit 评论上进行的。
| 库 | 更多结果 | CPU WPS | GPU WPS |
|---|---|---|---|
在 OntoNotes 5.0 和 CoNLL-2003 语料库上的命名实体识别准确性。 参见 NLP-progress 以获取更多结果。项目模板:benchmarks/ner_conll03。 1. Qi et al. (2020)。 2. Akbik et al. (2018)。 | en_core_web_lg | 10,014 | 14,954 |
在 OntoNotes 5.0 和 CoNLL-2003 语料库上的命名实体识别准确性。 参见 NLP-progress 以获取更多结果。项目模板:benchmarks/ner_conll03。 1. Qi et al. (2020)。 2. Akbik et al. (2018)。 | en_core_web_trf | 684 | 3,768 |
| Stanza | en_ewt | 878 | 2,180 |
| Flair | pos(-fast) & ner(-fast) | 323 | 1,184 |
| UDPipe | english-ewt-ud-2.5 | 1,101 | n/a |
对原始未注释文本进行端到端处理的速度。 项目模板:benchmarks/speed。