Light C Unicode库
我正在寻找一个小C库来处理utf8string。
具体来说,基于统一码分隔符进行分词以用于词干分析algorithm。
相关post提示:
ICU http://www.icu-project.org/ (我发现它太笨重,因为我在embedded式设备上的目的)
UTF8-CPP: http : //utfcpp.sourceforge.net/ (优秀,但C ++不C)
有没有人发现任何平台独立,小代码库处理Unicodestring(不需要做归化)。
任何意见将不胜感激。
我使用的一个很好的,轻量级的库是utf8proc 。
还有MicroUTF-8 。
UTF-8是专门devise的,因此许多字节导向的string函数可以继续工作,或者只需要很小的修改。
例如,C的strstr
函数只要input有效,以空字符结尾的UTF-8string就可以正常工作。 只要它的inputstring从字符边界开始(例如strstr
的返回值), strcpy
可以正常工作。
所以你可能甚至不需要一个单独的库!