unicode两种编码方式与中文的转换

unicode的表示方式有两种,一种为web页面中使用的,一种为我们一般采用的编码方式
第一种:"成都 "Unicode编码方式  &+编号是网页里引用unicode字符的方法,编号为十进制的在unicode中的编号
 
第二种:\u6210\u90fd 表示的也是成都,采用的也是unicode编码格式,是java编程中使用的编码格式
它以\u开头,后接四位16进制的数。
一下是java中之间相互转化的代码

/*
 * string与unicode之间相互转换
 */
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class unicodeString {
	public static void main(String[] args) {
		String str = "中国";
		System.out.println(unicodeString.StringToWebUnicode(str));
		System.out.println(unicodeString.WebUnicodeToString("中国"));
		System.out.println(unicodeString.StringToUnicode(str));
		System.out.println(unicodeString.UnicodeToString("\u4e2d\u56fd\\uqqqq"));
	}
	/*
	 * 普通类型的unicode转string
	 */
	public static String UnicodeToString(String input) {
		Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");
		Matcher matcher = pattern.matcher(input);
		char ch;
		while (matcher.find()) {
			ch = (char) Integer.parseInt(matcher.group(2), 16);
			input = input.replace(matcher.group(1), ch + "");
		}
		return input;
	}
	/*
	 * string转普通类型的unicode
	 */
	public static String StringToUnicode(String input) {
		String str = "";
		for (char c : input.toCharArray()) {
			if ((int) c > 128)
				str += "\\u" + Integer.toHexString((int) c);
			else
				str += c;
		}
		return str;

	}
	/*
	 * string转web类型的unicode
	 */
	public static String StringToWebUnicode(String input) {
		String str = "";
		for (char c : input.toCharArray()) {
			str += "&#" + (int) c + ";";
		}
		return str;
	}
	/*
	 * web类型的unicode转string
	 */
	public static String WebUnicodeToString(String input) {
		String str = "";
		String[] y1 = input.split(";");
		for (String c : y1) {
			if (c.length() > 2) {
				str += (char) Integer.parseInt(c.substring(2));
			}
		}
		return str;
	}
}

 

你可能感兴趣的:(javaSE)