Unicode:宽字节字符集
1.如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数?可以调用MicrosoftVisualC++的运行期库包含函数_mbslen来操作多字节(既包括单字节也包括双字节)字符串。调用strlen函数,无法真正了解字符串中究竟有多少字符,它只能告诉你到达结尾的0之前有多少个字节。
2.如何对DBCS(双字节字符集)字符串进行操作?函数描述PTSTRCharNext(LPCTSTR);返回字符串中下一个字符的地址PTSTRCharPrev(LPCTSTR,LPCTSTR);返回字符串中上一个字符的地址BOOLIsDBCSLeadByte(BYTE);如果该字节是DBCS字符的第一个字节,则返回非0值
4.如何编写Unicode源代码?Microsoft公司为Unicode设计了WindowsAPI,这样,可以尽量减少代码的影响。实际上,可以编写单个源代码文件,以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏(UNICODE和_UNICODE),就可以修改然后重新编译该源文件。_UNICODE宏用于C运行期头文件,而UNICODE宏则用于Windows头文件。当编译源代码模块时,通常必须同时定义这两个宏。
5.Windows定义的Unicode数据类型有哪些?数据类型说明WCHARUnicode字符PWSTR指向Unicode字符串的指针PCWSTR指向一个恒定的Unicode字符串的指针对应的ANSI数据类型为CHAR,LPSTR和LPCSTR。ANSI/Unicode通用数据类型为TCHAR,PTSTR,LPCTSTR。
6.如何对Unicode进行操作?字符集特性实例ANSI操作函数以str开头strcpyUnicode操作函数以wcs开头wcscpyMBCS操作函数以_mbs开头_mbscpyANSI/Unicode操作函数以_tcs开头_tcscpy(C运行期库)ANSI/Unicode操作函数以lstr开头lstrcpy(Windows函数)所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示;Unicode版本函数结尾以W表示。Windows会如下定义:#ifdefUNICODE#defineCreateWindowExCreateWindowExW#else#defineCreateWindowExCreateWindowExA#endif//!UNICODE
7.如何表示Unicode字符串常量?字符集实例ANSI“string”UnicodeL“string”ANSI/UnicodeT(“string”)或_TEXT(“string”)if(szError[0]==_TEXT(‘J’)){}
8.为什幺应当尽量使用操作系统函数?这将有助于稍稍提高应用程序的运行性能,因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。由于这些函数使用得很多,因此,在应用程序运行时,它们可能已经被装入RAM。如:StrCat,StrChr,StrCmp和StrCpy等。
9.如何编写符合ANSI和Unicode的应用程序?(1)将文本串视为字符数组,而不是chars数组或字节数组。(2)将通用数据类型(如TCHAR和PTSTR)用于文本字符和字符串。(3)将显式数据类型(如BYTE和PBYTE)用于字节、字节指针和数据缓存。(4)将TEXT宏用于原义字符和字符串。(5)执行全局性替换(例如用PTSTR替换PSTR)。(6)修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小,而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要为字符串分配一个内存块,并且拥有该字符串中的字符数目,那幺请记住要按字节来分配内存。这就是说,应该调用malloc(nCharacters*sizeof(TCHAR)),而不是调用malloc(nCharacters)。
10.如何对字符串进行有选择的比较?通过调用CompareString来实现。标志含义NORM_IGNORECASE忽略字母的大小写NORM_IGNOREKANATYPE不区分平假名与片假名字符NORM_IGNORENONSPACE忽略无间隔字符NORM_IGNORESYMBOLS忽略符号NORM_IGNOREWIDTH不区分单字节字符与作为双字节字符的同一个字符SORT_STRINGSORT将标点符号作为普通符号来处理
11.如何判断一个文本文件是ANSI还是Unicode?判断如果文本文件的开头两个字节是0xFF和0xFE,那幺就是Unicode,否则是ANSI。
12.如何判断一段字符串是ANSI还是Unicode?用IsTextUnicode进行判断。IsTextUnicode使用一系列统计方法和定性方法,以便猜测缓存的内容。由于这不是一种确切的科学方法,因此IsTextUnicode有可能返回不正确的结果。
13.如何在Unicode与ANSI之间转换字符串?Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串;函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。
14.Unicode和DBCS之间的区别Unicode使用(特别在C程序设计语言环境里)“宽字符集”。「Unicode中的每个字符都是16位宽而不是8位宽。」在Unicode中,没有单单使用8位数值的意义存在。相比之下,在“双位组字符集”中我们仍然处理8位数值。有些位组自身定义字符,而某些位组则显示需要和另一个位组共同定义一个字符。处理DBCS字符串非常杂乱,但是处理Unicode文字则像处理有秩序的文字。您也许会高兴地知道前128个Unicode字符(16位代码从0x0000到0x007F)就是ASCII字符,而接下来的128个Unicode字符(代码从0x0080到0x00FF)是ISO8859-1对ASCII的扩展。Unicode中不同部分的字符都同样基于现有的标准。这是为了便于转换。希腊字母表使用从0x0370到0x03FF的代码,斯拉夫语使用从0x0400到0x04FF的代码,美国使用从0x0530到0x058F的代码,希伯来语使用从0x0590到0x05FF的代码。中国、日本和韩国的象形文字(总称为CJK)占用了从0x3000到0x9FFF的代码。Unicode的最大好处是这里只有一个字符集,没有一点含糊。
15.衍生标准Unicode是一个标准。UTF-8是其概念上的子集,UTF-8是具体的编码标准。而UNICODE是所有想达到世界统一编码标准的标准。UTF-8标准就是Unicode(ISO10646)标准的一种变形方式,UTF的全称是:Unicode/UCSTransformationFormat,其实有两种UTF,一种是UTF-8,一种是UTF-16,不过UTF-16使用较少,其对应关系如下:在Unicode中编码为0000-007F的UTF-8中编码形式为:0xxxxxxx在Unicode中编码为0080-07FF的UTF-8中编码形式为:110xxxxx10xxxxxx在Unicode中编码为0000-007F的UTF-8中编码形式为:1110xxxx10xxxxxx10xxxxxx
某些语言(如韩语)必须在unicode环境下才能显示,这种情况下,在非unicode环境下开发,就算用字符串函数转换也不能达到显示文字的目的,因为此时调用得API函数是用ANSI的(虽然底层都是用UNICODE处理但是处理结果是按照程序员调用的API来显示的)。所以必须用unicode来开发。
对以后学习的想法:
1.苦修内功:数据结构,算法分析,操作系统,编译原理,计算机网络,数据库技术,但是要理论结合实践,在编程中应用和体会
2.精通一门:将一种语言与一特定领域相结合
3.培养思想:练习编写大型软件的能力,并逐渐掌握GP,OOP,DP的思想
4.开阔眼界:对于新技术要有所了解
关于c宏:
1.预编译器将程序正文中将所遇到的宏名展开成宏定义。
#definePI3.1415926
2.可以定义带参数的宏,具有模板的部分功能,但是最好将宏参数用括号括起来。
#defineMIN(a,b)(((a)<(b))(a):(b))
3.通过##宏运算符可以拼接起两个串。
#defineNAME(a,b)a##b
4.#undefX保证不再有称为X的有定义的宏。
5.一种特殊的宏:条件编译。
#ifdefMACRO_NAME
……
#endif
意思是:除非应经定义了名为MACRO_NAME的宏,否则#ifdef与#endif之间的语句将被忽略。
C++中应该尽量避免使用宏:
1.#definePI3.1415926可以使用constdoublePI=3.1415926代替。
2.#defineMIN(a,b)(((a)<(b))(a):(b))可以使用函数模板代替。
template
inlineTmin(Ta,Tb)
{
return(a
}
3.用于拼接起两个串的宏和条件编译的宏仍然有其使用范围。
宏的优点:
1.效率高,执行速度快。但是有的可以使用C++的inline函数代替,仍然保持其执行效率。
宏的缺点:
1.缺乏类型安全检查和作用域规则检查,编译器能看到的只是宏展开后的形式,所以在宏中的错误是在宏被展开之后报告的,而不是在它定义时,导致非常难以理解的错误信息。
2.宏名不能重载,而且宏预处理器不能处理递归调用。
voidCProView::OnDraw(CDC*pDC){CProDoc*pDoc=GetDocument();ASSERT_VALID(pDoc);///////////////////////////////////////////////////////////////////////////////////////////////////////////////贴图CBitmapbitmap;bitmap.LoadBitmap(IDB_BITMAP1);
CDCdcMemory;dcMemory.CreateCompatibleDC(pDC);
//Selectthebitmapintothein-memoryDCCBitmap*pOldBitmap=dcMemory.SelectObject(&bitmap);//FindacenterpointforthebitmapintheclientareaRECTrect;GetClientRect(&rect);
//Copythebitsfromthein-memoryDCintotheon-//screenDCtoactuallydothepainting.Usethecenterpoint//wecomputedforthetargetoffset.pDC->BitBlt(0,0,rect.right,rect.bottom,&dcMemory,0,0,SRCCOPY);