存档

文章标签 ‘字符编码’

【NetBeans】设置打开文件时的默认文件编码

2011年10月8日 2 条评论

用netbeans打开utf-8编码的文件,其中的中文全部显示成了乱码,英文显示正常,说明是文件打开时的编码不对。

设置步骤如下:

  1. 找到你的Netbeans安装目录下的etc文件夹,如C:\Program Files\NetBeans 7.0.1\etc
  2. 用记事本打开netbeans.conf
  3. 找到netbeans_default_options这一句(没带#号的,带#号的是注释)
  4. 在最后面加上一个空格,再加入-J-Dfile.encoding=UTF-8
    如: netbeans_default_options="-J-client -J-Xss2m -J-Xms32m -J-XX:PermSize=32m -J-Dapple.laf.useScreenMenuBar=true -J-Dapple.awt.graphics.UseQuartz=true -J-Dsun.java2d.noddraw=true -J-Dfile.encoding=UTF-8"

参考:http://hi.baidu.com/hnjiakai/blog/item/9e2834fac007169f58ee9063.html

分类: 软件技巧 标签: 7,603次阅读

字符编码笔记:ASCII、Unicode、UTF-8、UTF-16、UCS、BOM、Endian

2010年11月24日 2 条评论
字符编码笔记:ASCII,Unicode和UTF-8

作者: 阮一峰 

版权声明:自由转载-非商用-非衍生-保持署名 | Creative Commons BY-NC-ND 3.0 

最后修改时间:2007年10月29日 09:46 

今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。 

结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚。 

下面就是我的笔记,主要用来整理自己的思路。但是,我尽量试图写得通俗易懂,希望能对其他朋友有用。毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识。 

阅读全文...

分类: 程序开发 标签: 11,552次阅读

【PHP】统计中英文单词数(GB2312/UTF-8编码)

2010年11月24日 4 条评论

英文单词的统计可以直接用php原生的函数str_word_count来进行统计。但这个函数对于中文汉字显得无能为力,无法准确统计到汉字个数。

解决办法是根据汉字的编码规则,自己来实现中文汉字数统计和中英文单词数统计。汉字编码参考Unicode编码表GB2312区位码、编码表与编码规则

对于GB2312编码的字符采用以下函数:

阅读全文...

分类: 程序开发 标签: , 9,121次阅读

GB2312区位码、编码表与编码规则

2010年11月24日 没有评论

GB2312共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录包括拉丁字母、希腊字母、日文平假名及片假名字母、俄罗斯语西里尔字母在内的682个全形字符。       

GB2312区位码

GB2312对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。

  • 01-09区为特殊符号。          
  • 16-55区为一级汉字,按拼音排序。           
  • 56-87区为二级汉字,按部首/笔画排序。          
  • 10-15区及88-94区则未有编码。        

阅读全文...

分类: 程序开发 标签: 35,317次阅读

Unicode编码表

2010年2月12日 1 条评论

 以下为Unicode编码清单,具体字符的编码表请下载Unicode编码表

1.  【0020-007F】 Basic Latin 基本拉丁字母

2.  【00A0-00FF】 Latin-1 Supplement 拉丁字母补充-1

3.  【0100-017F】 Latin Extended-A 拉丁字母扩充-A

4.  【0180-023F】 Latin Extended-B 拉丁字母扩充-B

5.  【0250-02AF】 IPA Extensions 国际音标扩充

阅读全文...

分类: 程序开发 标签: , 33,999次阅读

无觅相关文章插件,快速提升流量