Tokenization of Arabic words using NLTK
我用nltk
我想把这句话标记一下:
1 | ??_????? ?? ?? ??? ?????? ???? ...???? ??? ???? ???? ????? ..????? ??? ???? ???? ???? ??? |
我写的代码是:
1 2 3 4 5 6 7 | import re import nltk lex = u" ??_????? ?? ?? ??? ?????? ???? ...???? ??? ???? ???? ????? ..????? ??? ???? ???? ???? ???" wordsArray = nltk.word_tokenize(lex) print"".join(wordsArray) |
问题是,
1 | "? ? _ ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ... ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? .. ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?" |
有什么想法吗?
我到目前为止所做的:
通过尝试这里的文本,它似乎被字母标记化了。然而,其他标记化技术者也正确地标记了它。这是否意味着
我一直建议使用
这是我用代码得到的输出,但我记得在python 2中Unicode并不好用,我用了3.5
1 | nltk.word_tokenize('??_????? ?? ?? ??? ?????? ???? ...???? ??? ???? ???? ????? ..????? ??? ???? ???? ???? ??? ') |
[’????????,"??""??""???,"????????""?????""……""?????""???,"?????""?????""??????,"……??????,"???,"?????""?????""?????""???]