spacy sentence tokenization error on Hebrew
尝试对希伯来语使用空的句子标记化。
1 2 3 4 | import spacy nlp = spacy.load('he') doc = nlp(text) sents = list(doc.sents) |
我明白了:
1 2 3 4 5 6 7 8 9 | Warning: no model found for 'he' Only loading the 'he' tokenizer. Traceback (most recent call last): ... sents = list(doc.sents) File"spacy/tokens/doc.pyx", line 438, in __get__ (spacy/tokens/doc.cpp:9707) raise ValueError( ValueError: Sentence boundary detection requires the dependency parse, which requires data to be installed. For more info, see the documentation: https://spacy.io/docs/usage |
怎么办?
spaCy\\ 的希伯来语覆盖范围目前非常少。它目前只有希伯来语的词标记化,它在空白处大致分裂,有一些额外的规则和例外。您想要的句子标记化/边界检测需要对句子进行更复杂的语法分析,以确定一个句子在哪里结束,另一个在哪里开始。这些模型需要大量标记的训练数据,因此可用于比标记化更少的语言(这里是列表)。
最初的消息是告诉你它可以做标记化,这不需要模型,然后你得到的错误是没有模型来分割句子,做 NER 或 POS,等等
您可以查看此列表以获取有关希伯来语 NLP 的其他资源。如果您找到足够多的正确格式的标记数据并且您感到雄心勃勃,则可以使用此处描述的概述来训练自己的希伯来语 spaCy 模型。