首页 | 源码下载 | 网站模板 | 网页特效 | 广告代码 | 网页素材 | 字体下载 | 书库 | 站长工具
会员投稿 投稿指南 RSS订阅
当前位置:主页>网络编程>jsp教程>资讯:深入浅出URL编码

深入浅出URL编码

www.jz123.cn  2010-06-25   来源:   作者博客    杨争    我要投递新闻

  三、下面我们分别从浏览器和应用服务器来举例说明:

  URL:http://localhost:8080/example/ 中国?name=中国

  汉字 编码 二进制表示

  中国 UTF-8 0xe4 0xb8 0xad 0xe5 0x9b 0xbd[-28, -72, -83, -27, -101, -67]

  中国 GBK 0xd6 0xd0 0xb9 0xfa[-42, -48, -71, -6]

  中国 ISO8859-1 0x3f,0x3f[63, 63]信息失去

  (一)、浏览器

  1、GET方式提交,浏览器会对URL进行URL encode,然后发送给服务器。

  (1) 对于中文IE,如果在高级选项中选中总以UTF-8发送(默认方式),则PathInfo是URL Encode是按照UTF-8编码,QueryString是按照GBK编码。

  http://localhost:8080/example/ 中国?name=中国

  实际上提交是:

  GET /example/%E4%B8%AD%E5%9B%BD?name=%D6%D0%B9%FA

  (1) 对于中文IE,如果在高级选项中取消总以UTF-8发送,则PathInfo和QueryString是URL encode按照GBK编码。

  实际上提交是:

  GET /example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

  (3) 对于中文firefox,则pathInfo和queryString都是URL encode按照GBK编码。

  实际上提交是:

  GET /example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

  很显然,不同的浏览器以及同一浏览器的不同设置,会影响最终URL中PathInfo的编码。对于中文的IE和FIREFOX都是采用GBK编码QueryString。

  小结:解决方案:

  1、URL中如果含有中文等非ASCII字符,则浏览器会对它们进行URLEncode。为了避免浏览器采用了我们不希望的编码,所以最好不要在URL中直接使用非ASCII字符,而采用URL Encode编码过的字符串%.

  比如:

  URL:http://localhost:8080/example/ 中国?name=中国

  建议:

  URL:http://localhost:8080/example/%D6%D0%B9%FA?name=%D6%D0%B9%FA

  2、我们建议URL中PathInfo和QueryString采用相同的编码,这样对服务器端处理的时候会更加简单。

  2、还有一个问题,我发现很多程序员并不明白URL Encode是需要指定字符集的。不明白的人可以看看这篇文档:http://gceclub.sun.com.cn/Java_Docs/html/zh_CN/api/java/net/URLEncoder.html

  2、 POST提交

  对于POST方式,表单中的参数值对是通过request body发送给服务器,此时浏览器会根据网页的ContentType("text/html; charset=GBK")中指定的编码进行对表单中的数据进行编码,然后发给服务器。

  在服务器端的程序中我们可以通过Request.setCharacterEncoding() 设置编码,然后通过request.getParameter获得正确的数据。

  解决方案:

  1、从最简单,所需代价最小来看,我们对URL以及网页中的编码使用统一的编码对我们来说是比较合适的。

  如果不使用统一编码的话,我们就需要在程序中做一些编码转换的事情。这也是我们为什么看到有网络上大量的资料介绍如何对乱码进行处理,其中很多解决方案都只是一时的权宜之计,没有从根本上解决问题。

  (二)、Servlet服务器

  Servlet服务器实现的Servlet遇到URL和POST提交的数据中含有%的字符串,它会按照指定的字符集解码。下面两个Servlet方法返回的结果都是经过解码的:

  request.getParameter("name");

  request.getPathInfo();

  这里所说的"指定的字符集"是在应用服务器的配置文件中配置。

  (1) tomcat服务器

  对于tomcat服务器,该文件是server.xml

  

  maxThreads="150" connectionTimeout="20000"

  redirectPort="8443" URIEncoding="GBK"/>

  URIEncoding告诉服务器servlet解码URL时采用的编码。

  

  useBodyEncodingForURI告诉服务器解码URL时候需要采用request body指定的编码。

  (2) weblogic服务器

  对于weblogic服务器,该文件是weblogic.xml

  

  GBK

  

  (三)浏览器显示

  浏览器根据http头中的ContentType("text/html; charset=GBK"),指定的字符集来解码服务器发送过来的字节流。我们可以调用 HttpServletResponse.setContentType()设置http头的ContentType。

  总结:

  1、URL中的PathInfo和QueryString字符串的编码和解码是由浏览器和应用服务器的配置决定的,我们的程序不能设置,不要期望用request.setCharacterEncoding()方法能设置URL中参数值解码时的字符集。

  所以我们建议URL中不要使用中文等非ASCII字符,如果含有非ASCII字符的话要使用URLEncode编码一下,比如:

  http://localhost:8080/example1/example/ 中国

  正确的写法:

  http://localhost:8080/example1/example/%E4%B8%AD%E5%9B%BD

  并且我们建议URL中不要在PathInfo和QueryString同时使用非ASCII字符,比如

  http://localhost:8080/example1/example/ 中国?name=中国

  原因很简单:不同浏览器对URL中PathInfo和QueryString编码时采用的字符集不同,但应用服务器对URL通常会采用相同的字符集来解码。

  2、我们建议URL中的URL Encode编码的字符集和网页的contentType的字符集采用相同的字符集,这样程序的实现就很简单,不用做复杂的编码转换。

上一篇:Zend Framework和Struts2 下一篇:JSP九大内置对象的详细学习

评论总数:0 [ 查看全部 ] 网友评论


关于我们隐私版权广告服务友情链接联系我们网站地图