关于unicode：如何在Perl中将输入文件转换为UTF-8编码？

How can I convert an input file to UTF-8 encoding in Perl?

我已经知道如何使用如下代码将文件中非UTF8编码的内容逐行转换为UTF-8编码：

1
2
3
4
5
6
7

# outfile.txt is in GB-2312 encode
open my $filter,"<",'c:/outfile.txt';

while(<$filter>){
#convert each line of outfile.txt to UTF-8 encoding
$_ = Encode::decode("gb2312", $_);
...}

但是我认为Perl可以将整个输入文件直接编码为utf-8格式，所以我尝试了类似的方法

1 2	#outfile.txt is in GB-2312 encode open my $filter,"<:utf8",'c:/outfile.txt';

(Perl说类似于"utf8"的内容，"xd4"不映射到Unicode)

和

1 2	open my $filter,"<",'c:/outfile.txt'; $filter = Encode::decode("gb2312", $filter);

(Perl在未打开的文件句柄上说"readline()"

它们不工作。但是有没有办法直接将输入文件转换成UTF-8编码？

更新：

看起来事情不像我想的那么简单。现在我可以用一种迂回的方式将输入文件转换为UTF-8代码。我首先打开输入文件，然后将其内容编码为UTF-8，然后输出到新文件，然后打开新文件进行进一步处理。这是代码：

1
2
3
4
5
6

open my $filter,'<:encoding(gb2312)','c:/outfile.txt';
open my $filter_new, '+>:utf8', 'c:/outfile_new.txt';
print $filter_new $_ while <$filter>;
while (<$filter_new>){
...
}

但这是太多的工作，它甚至比简单地逐行编码$filter的内容更麻烦。

相关讨论

：编码层将返回适合Perl使用的utf-8。也就是说，Perl将把每个字符识别为一个字符，即使它们是多个字节。根据接下来要对数据做什么，这可能是足够的。

但是，如果您对Perl试图将其从utf8降级的数据执行某些操作，那么您要么需要告诉Perl不要(例如，执行binmode(stdout，"：utf8")来告诉Perl输出到stdout应该是utf8)，要么需要Perl将utf8视为二进制数据(分别解释每个字节，并且不知道utf8字符。)

要做到这一点，您所需要的就是为您的开放应用一个额外的层：

1	open my $foo,"<:encoding(gb2312):bytes", ...;

请注意，以下输出将是相同的：

1 2	perl -we'open my $foo,"<:encoding(gb2312):bytes","foo"; $bar = <$foo>; print $bar' perl -CO -we'open my $foo,"<:encoding(gb2312)","foo"; $bar = <$foo>; print $bar'

但在一种情况下，Perl知道读取的数据是utf8(因此length($bar)将报告utf8字符的数量)，并且必须明确告诉(by-co)stdout将接受utf8，而在另一种情况下，Perl对数据不做任何假设(因此length($bar)将报告字节数)，并按原样打印出来。