tm Corpus: tm_map function does not change the corpus
我是 R 中 tm 包的新手。我正在尝试使用
我在这里搞砸了什么吗?这可能是一些问题吗?
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | library(tm) setwd("...") filenames <- list.files(getwd(), pattern="*.txt") files <- lapply(filenames, readLines) docs <- Corpus(VectorSource(files)) writeLines(as.character(docs[[30]])) docs <- tm_map(docs, function(x) iconv(enc2utf8(x$content), sub =""), lazy=TRUE) #to lower case docs <- tm_map(docs, content_transformer(tolower), lazy=TRUE) writeLines(as.character(docs[[30]])) |
感谢您的建议!
这是一个简单的修复。将转换为小写的代码移到 iconv(...) 之前。
这行得通:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | library(tm) setwd("") # Read in Files filenames <- list.files(getwd(), pattern="*.txt") files <- lapply(filenames, readLines) docs <- Corpus(VectorSource(files)) writeLines(as.character(docs[[30]])) # Lower Case docs <- tm_map(docs, content_transformer(tolower), lazy=TRUE) # Convert docs <- tm_map(docs, function(x) iconv(enc2utf8(x$content), sub ="")) writeLines(as.character(docs[[30]])) |