php 字串長度不一致怎麼辦

2023-02-07 18:01:46

php字串長度不一致的解決辦法:1、通過mb_detect_encoding()函數檢視字串的編碼方式;2、通過mb_strlen函數檢視具體字元長度;3、使用正規表示式「preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str1, $matches);」剔除非中文字元即可。

本教學操作環境:Windows10系統、PHP8.1版、DELL G3電腦

php 字串長度不一致怎麼辦?

php 中字串一樣但長度不等的問題

問題:

353b961cc8683620091dd5ce9b32cd7.jpg

如圖所示 咋眼看去兩個一樣的中文字串「後勤保障部」,但一個長度為21 一個為15。

首先直覺可能會認為是編碼方式不一樣導致的,
通過mb_detect_encoding()函數檢視兩個字串的編碼方式 程式碼如下

<?php
header("Content-Type: text/html;charset=utf-8"); 

$data[0]=$str1="後勤保障部‍";
$data[1]=$str2="後勤保障部";
var_dump($data);

//檢視編碼方式
$encode1 = mb_detect_encoding($str1,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));
echo "str1='".$str1."'"."&emsp;編碼:".$encode1."</br>";
echo "str2='".$str2."'"."&emsp;編碼:".$encode2."</br>";
?>
登入後複製

但輸出結果都是UTF-8

6761645046379c5e985f8c66e254dda.jpg

那麼是什麼原因呢 ,我們在輸出看下具體字元長度

<?php
header("Content-Type: text/html;charset=utf-8"); 

$data[0]=$str1="後勤保障部‍";
$data[1]=$str2="後勤保障部";
var_dump($data);

//檢視編碼方式
$encode1 = mb_detect_encoding($str1,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));

//當mb_strlen的內碼選擇為UTF-8的時候,則會將中文字元當成一個字元
//strlen,得到的是字串所佔的位元組數
echo "str1='".$str1."'".":&emsp;字元長度:".mb_strlen($str1).":&emsp;位元組長度:".strlen($str1)."&emsp;編碼:".$encode1."</br>";
echo "str2='".$str2."'".":&emsp;字元長度:".mb_strlen($str2).":&emsp;位元組長度:".strlen($str2)."&emsp;編碼:".$encode2."</br>";
?>
登入後複製

輸出結果如下:

27d1cf2e1e07cd19b8d3895d81b1e24.jpg

發現字串str1有7箇中文字元,但實際只顯示了5個,也就是「後勤保障部」

通過擷取str1最後兩個字元檢視

//擷取str1後面兩個未顯示字元
$res=mb_substr($str1, 5,2);
echo "最後兩字元:".$res."</br>";
echo mb_strlen($res);
登入後複製

無法echo顯示,但確實佔有兩個字元

如果實際要求這看上去一樣的字串就相等的話,需要進行處理,處理就是剔除非中文字元:

//剔除str1字串中未顯示的字元(非中文字元)
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str1, $matches);
$str1 = join('', $matches[0]);
登入後複製

最終程式碼如下

<?php
header("Content-Type: text/html;charset=utf-8"); 

$data[0]=$str1="後勤保障部‍";
$data[1]=$str2="後勤保障部";
var_dump($data);

//檢視編碼方式
$encode1 = mb_detect_encoding($str1,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));

//當mb_strlen的內碼選擇為UTF-8的時候,則會將中文字元當成一個字元
//strlen,得到的是字串所佔的位元組數
echo "str1='".$str1."'".":&emsp;字元長度:".mb_strlen($str1).":&emsp;位元組長度:".strlen($str1)."&emsp;編碼:".$encode1."</br>";
echo "str2='".$str2."'".":&emsp;字元長度:".mb_strlen($str2).":&emsp;位元組長度:".strlen($str2)."&emsp;編碼:".$encode2."</br>";

//擷取str1後面兩個未顯示字元
echo "</br>------------------擷取str1後面兩個未顯示字元---------------------</br>";
$res=mb_substr($str1, 5,2);
echo "str1最後兩字元:&emsp;".$res."</br>";
echo "str1長度:&emsp;".mb_strlen($res)."</br>";

//比較
echo "</br>--------------------------相等比較----------------------------------</br>";
echo "str1 與 str2比較:&emsp;";
echo strcomp($str1,$str2)."</br>";
echo "str2 與 str2比較:&emsp;";
echo strcomp($str2,$str2)."</br>";


//剔除str1字串中非中文
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str1, $matches);
$str1 = join('', $matches[0]);

echo "</br>---------------------剔除str1字串中非中文後----------------------</br>";
echo "str1='".$str1."'".":&emsp;字元長度:".mb_strlen($str1).":&emsp;位元組長度:".strlen($str1)."&emsp;編碼:".$encode1."</br>";
echo "str1 與 str2比較:&emsp;";
echo strcomp($str1,$str2)."</br>";

function strcomp($str1,$str2){ 
  if($str1 == $str2){ 
    return "相等"; 
  }else{ 
    return "不等"; 
  } 
} 

?>
登入後複製

執行結果
f4f06f8edf48fd52687a68fe87884cc.jpg


注:
將21位元組的str1複製到phpmyadmin的sql輸入框,顯示如下

91e36c733c4d7b750836cb0b217900d.jpg

嗯 就是多的那兩個字元

推薦學習:《》

以上就是php 字串長度不一致怎麼辦的詳細內容,更多請關注TW511.COM其它相關文章!