php转换字符编码为utf-8 – mb_detect_encoding

mb_detect_encoding — 检测字符的编码

1
string mb_detect_encoding ( string $str [,mixed $encoding_list = mb_detect_order() [,bool $strict = false ]])

这个函数有三个参数分别是:

1.str:待检查的字符串

2.encoding_list:encoding_list 是一个字符编码列表,编码顺序可以由数组或者逗号分隔的列表字符串指定.

如果省略了 encoding_list 将会使用 detect_order。

3.strict:strict 指定了是否严格地检测编码,默认是 FALSE.

下面举个例子,代码如下:

1
$encode = mb_detect_encoding($keytitle,array('ASCII','GB2312','GBK','UTF-8'));

三个参数分别是:被检测的输入变量,编码方式的检测顺序(一旦为真,后面自动忽略),strict模式对编码检测的顺序进行调整,将最大可能性放在前面,这样减少被错误转换的机会,一般要先排gb2312,当有GBK和UTF-8时,需要将常用的排列到前面.

集成函数如下:

1.字符串转换为UTF-8

1
2
3
4
5
6
7
8
function strToUtf8($str){
    $encode = mb_detect_encoding($str, array("ASCII",'UTF-8',"GB2312","GBK",'BIG5'));
    if($encode == 'UTF-8'){
        return $str;
    }else{
        return mb_convert_encoding($str, 'UTF-8', $encode);
    }
}

2.文件内容转换编码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
/**
 * 检测文件编码
 * @param string $file 文件路径
 * @return string|null 返回 编码名 或 null
 */
function detect_encoding($file) {
    $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1');
    $str = file_get_contents($file);
    foreach ($list as $item) {
        $tmp = mb_convert_encoding($str, $item, $item);
        if (md5($tmp) == md5($str)) {
            return $item;
        }
    }
    return null;
}
 
/**
 * 自动解析编码读入文件
 * @param string $file 文件路径
 * @param string $charset 读取编码
 * @return string 返回读取内容
 */
function auto_read($file, $charset='UTF-8') {
    $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1');
    $str = file_get_contents($file);
    foreach ($list as $item) {
        $tmp = mb_convert_encoding($str, $item, $item);
        if (md5($tmp) == md5($str)) {
            return mb_convert_encoding($str, $charset, $item);
        }
    }
    return "";
}

参考:

1. php转换字符编码为utf-8

2. php中mb_detect_encoding检测文件编码方法