NLTK reconstruct sentence from tokens
我用NLTK标记了一个哨兵,但是现在我想把哨兵重建成一个字符串。我看过医生,但看不出有什么明显的原因。这有可能吗?
1 | tokens = [token.lower() for token in tokensCorrect] |
NLTK不提供这样的功能。在标记化技术过程中,空白被丢弃了,因此无法准确地返回您开始使用的内容;空白可能包含换行符和多个空格,并且无法返回这些内容。你能做的最好的就是把句子连接成一个看起来像正常句子的字符串。一个简单的
1 2 | >>> print("".join(tokens)) 'This is a sentence .' |
所以你需要在大多数标点符号之前去掉空格,除了一些像
我的建议是保留原来的字符串,从中你标记了句子,并回到那些。你不知道你的句子是从哪里来的,所以没什么好说的了。