java中unicode utf-8以及汉字之间的转换工具类

创建时间：2017-07-05 投稿人：浏览次数：7151

1.1 stringToUnicode

/**
 * 获取字符串的unicode编码
 * 汉字“木”的Unicode 码点为Ox6728
 *
 * @param s 木
 * @return ufeffu6728  ufeff控制字符 用来表示「字节次序标记（Byte Order Mark）」不占用宽度
 * 在java中一个char是采用unicode存储的 占用2个字节 比如 汉字木 就是 Ox6728 4bit+4bit+4bit+4bit=2字节
 */
public static String stringToUnicode(String s) {
	try {
		StringBuffer out = new StringBuffer("");
		//直接获取字符串的unicode二进制
		byte[] bytes = s.getBytes("unicode");
		//然后将其byte转换成对应的16进制表示即可
		for (int i = 0; i < bytes.length - 1; i += 2) {
			out.append("\u");
			String str = Integer.toHexString(bytes[i + 1] & 0xff);
			for (int j = str.length(); j < 2; j++) {
				out.append("0");
			}
			String str1 = Integer.toHexString(bytes[i] & 0xff);
			out.append(str1);
			out.append(str);
		}
		return out.toString();
	} catch (UnsupportedEncodingException e) {
		e.printStackTrace();
		return null;
	}
}

测试

    @Test
    public void testGetUnicode() throws Exception {
        String str = "木";
        String s = EncodeUtil.stringToUnicode(str);
        System.out.println(s);  //Ox6728
    }

1.2 unicodeToString

/**
     * Unicode转 汉字字符串
     *
     * @param str u6728
     * @return "木" 26408
     */
public static String unicodeToString(String str) {

	Pattern pattern = Pattern.compile("(\\u(\p{XDigit}{4}))");
	Matcher matcher = pattern.matcher(str);
	char ch;
	while (matcher.find()) {
		//group 6728
		String group = matcher.group(2);
		//ch:"木" 26408
		ch = (char) Integer.parseInt(group, 16);
		//group1 u6728
		String group1 = matcher.group(1);
		str = str.replace(group1, ch + "");
	}
	return str;
}

测试

    @Test
    public void testUnicodeToString() throws Exception {
        String str = "\u6728";
        String s = EncodeUtil.unicodeToString(str);
        System.out.println(s);  //木
    }

2.1 ConvertStringToUTF8

/**
 * 汉字 转换为对应的 UTF-8编码
 * @param s 木
 * @return E69CA8
 */
public static String convertStringToUTF8(String s) {
	if (s == null || s.equals("")) {
		return null;
	}
	StringBuffer sb = new StringBuffer();
	try {
		char c;
		for (int i = 0; i < s.length(); i++) {
			c = s.charAt(i);
			if (c >= 0 && c <= 255) {
				sb.append(c);
			} else {
				byte[] b;
				b = Character.toString(c).getBytes("utf-8");
				for (int j = 0; j < b.length; j++) {
					int k = b[j];
					//转换为unsigned integer  无符号integer
					/*if (k < 0)
						k += 256;*/
					k = k < 0? k+256:k;
					//返回整数参数的字符串表示形式 作为十六进制（base16）中的无符号整数
					//该值以十六进制（base16）转换为ASCII数字的字符串
					sb.append(Integer.toHexString(k).toUpperCase());

					// url转置形式
					// sb.append("%" +Integer.toHexString(k).toUpperCase());
				}
			}
		}
	} catch (Exception e) {
		e.printStackTrace();
	}
	return sb.toString();
}

测试

@Test
public void testConvertStringToUTF8() {
	String str = "木";
	String s = EncodeUtil.convertStringToUTF8(str);
	System.out.println(s);  //E69CA8
}

2.2 ConvertUTF-8ToString

/**
 * UTF-8编码 转换为对应的 汉字
 *
 * @param s E69CA8
 * @return 木
 */
public static String convertUTF8ToString(String s) {
	if (s == null || s.equals("")) {
		return null;
	}
	try {
		s = s.toUpperCase();
		int total = s.length() / 2;
		//标识字节长度
		int pos = 0;
		byte[] buffer = new byte[total];
		for (int i = 0; i < total; i++) {
			int start = i * 2;
			//将字符串参数解析为第二个参数指定的基数中的有符号整数。
			buffer[i] = (byte) Integer.parseInt(s.substring(start, start + 2), 16);
			pos++;
		}
		//通过使用指定的字符集解码指定的字节子阵列来构造一个新的字符串。
		//新字符串的长度是字符集的函数，因此可能不等于子数组的长度。
		return new String(buffer, 0, pos, "UTF-8");
	} catch (UnsupportedEncodingException e) {
		e.printStackTrace();
	}
	return s;
}

测试

@Test
public void testConvertUTF8ToString() {
	String str = "E69CA8";
	String s = EncodeUtil.convertUTF8ToString(str);
	System.out.print(s);  //木
}

3.1 unicode转为utf8

//将unicode转换为utf-8
@Test
public void testUnicodeToUtf8() {
	String str = "\u6728";
	//unicode转换为String String再转换为utf-8
	String s = EncodeUtil.convertStringToUTF8(EncodeUtil.unicodeToString(str));
	System.out.println(s);
}

3.2 utf8转为unicode

//将utf-8转换为unicode
@Test
public void testUTF8ToUnicode() {
	String str = "E69CA8";
	//utf-8先转String String再转unicode
	String s = EncodeUtil.stringToUnicode(EncodeUtil.convertUTF8ToString(str));
	System.out.println(s);
}

总结来说：

1. java中的一个char是两个字节，以unicode方式存储在内存中。

2. 一个典型的错误是

String s = new String(”木”.getBytes(“utf-8”),”gbk”);

为什么会报错呢？原因是 utf-8编码的字节数组怎能使用gbk来解析呢？一个汉字在utf-8下占用3个字节，而在gbk下占用2个字节，是无法解析的。

3. java中提供了将汉字编码为utf8的方法 UrlEncoder.encode()以及解码的方法UrlDecoder.decode()

参考：

Java unicode中文编码转换和反转

java 汉字与UTF-8十六进制编码间相互转换方法

java中char与汉字占用字节个数问题

声明：该文观点仅代表作者本人，入门客AI创业平台信息发布平台仅提供信息存储空间服务，如有疑问请联系rumenke@qq.com。

上一篇：将for循环的循环变量放到循环体外起到标志位的作用
下一篇：使用Memcache实现Session共享（单点登录）的原理

热门文章: 使用Mysql和NoSQL实现热词统...; 将for循环的循环变量放到循...; java中unicode utf-8以及汉字之...; 使用Memcache实现Session共享（...

最新文章: java中unicode utf-8以及汉字之...; 将for循环的循环变量放到循...; 使用Mysql和NoSQL实现热词统...; ArrayList()类中的toString()方法...