入门客AI创业平台(我带你入门,你带我飞行)
博文笔记

php抓取中文字符

创建时间:2015-07-29 投稿人: 浏览次数:1042

抓取中文的来源可以是文本,网页,只要是有中文的地方就行,每个部分都有注释,里面包含中文的抓取和中文去重两部分。


 <?php
$str = "ddddvvv(,中文.)dfdsfds字啊 啊符啊.";

//把GB2312编码转化为 UTF-8编码
//$str = mb_convert_encoding($str, "UTF-8", "GB2312");

//正则匹配
preg_match_all("/[x{4e00}-x{9fff}]+/u", $str, $matches);

//把匹配到的数组连接为字符串
$str = implode("", $matches[0]);

//中文字符去重
$str = str_split($str,3);
$str = array_unique($str);
$str = implode($str);

//把UTF-8编码转化为 GB2312编码
$str = mb_convert_encoding($str, "GB2312", "UTF-8"); 

echo $str; 
?>


声明:该文观点仅代表作者本人,入门客AI创业平台信息发布平台仅提供信息存储空间服务,如有疑问请联系rumenke@qq.com。