Tag: unicode

为什么我不能在Java中使用\ u000D和\ u000A作为CR和LF?

为什么我不能在Java中使用\ u000D和\ u000A作为CR和LF? 编译代码时发生错误: illegal line end in character literal

Python unicode等于比较失败

这个问题链接到在Python中searchUnicode字符 我使用python编解码器读取unicode文本文件 codecs.open('story.txt', 'rb', 'utf-8-sig') 并试图在其中searchstring。 但是我收到以下警告。 UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode – interpreting them as being unequal 有没有什么特别的方法比较Unicodestring?

如何从我的XML文件中删除BOM字符

我正在使用xsl来控制我的xml文件的输出,但是正在添加BOM字符。

如何在Ruby中replace重音拉丁字符?

我有一个ActiveRecord模型, Foo ,它有一个name字段。 我希望用户能够按名称search,但我希望search忽略大小写和任何重音符号。 因此,我还存储了一个canonical_name字段来search: class Foo validates_presence_of :name before_validate :set_canonical_name private def set_canonical_name self.canonical_name ||= canonicalize(self.name) if self.name end def canonicalize(x) x.downcase. # something here end end 我需要填写“这里的东西”,以取代重音字符。 还有比这更好的吗? x.downcase.gsub(/[àáâãäå]/,'a').gsub(/æ/,'ae').gsub(/ç/, 'c').gsub(/[èéêë]/,'e')…. 而且,对于这个问题,因为我不在Ruby 1.9上,所以我不能把这些Unicode文字放在我的代码中。 实际的正则expression式看起来更丑陋。

JavaScript中的程序性重音减less(又称文本正常化或不起作用)

我需要比较2个string,如下所示: 吕贝克==吕贝克 在JavaScript中。 为什么? 那么,我有一个自动完成的领域,出去到一个Java服务使用Lucene的地方名称是自然存储(如吕贝克),但也索引为规范化的文本, import sun.text.Normalizer; oDoc.setNameLC = Normalizer.normalize(oLocName, Normalizer.DECOMP, 0) .toLowerCase().replaceAll("[^\\p{ASCII}]",""); 通过这种方式,不知道input“墨西哥”的人可以input“墨西哥”,并获得返回“墨西哥”的比赛(其他可能的命中,如“墨西哥咖啡馆,迪拜,阿联酋”)。 现在的事情是我没有能力改变服务在服务器端进行任何突出显示,所以我在客户端JavaScript端强调如下: return result.replace( input.replace(/[aeiou]/g,"."), "<b>$1</b>"); 这是多一点花式,因为我在input中逃避特殊的正则expression式字符。 这对一个单词在匹配开始时的简单匹配是很好的,但是如果你突然想要支持像“伦敦咖啡馆”这样的多字匹配的话, input = input.strip().toLowerCase(); //fyi prototype's strip is like trim re = new RegEx(input.replace(/[aeiou]/g,".").replace(/\s+/g,"|"),"gi"); return result.replace(re, "<b>$1</b>"); 这不适用于说“伦敦咖啡”,因为它会将“加拿大道森城杰克伦敦小屋”标记为: "Ja<b>ck</b> <b>London</b> <b>ca</b>bin, Dawson <b>Ci</b>ty, <b>Ca<b/>nada"伦敦咖啡” "Ja<b>ck</b> <b>London</b> <b>ca</b>bin, Dawson <b>Ci</b>ty, <b>Ca<b/>nada" “,特别是”ck“和”Ci“ 所以我在寻找一些不像以下那样疯狂的东西: input = input.strip().toLowerCase(); […]

BYTE和CHAR在列数据types中的区别

在Oracle中,有什么区别: CREATE TABLE CLIENT ( NAME VARCHAR2(11 BYTE), ID_CLIENT NUMBER ) 和 CREATE TABLE CLIENT ( NAME VARCHAR2(11 CHAR), — or even VARCHAR2(11) ID_CLIENT NUMBER )

Light C Unicode库

我正在寻找一个小C库来处理utf8string。 具体来说,基于统一码分隔符进行分词以用于词干分析algorithm。 相关post提示: ICU http://www.icu-project.org/ (我发现它太笨重,因为我在embedded式设备上的目的) UTF8-CPP: http : //utfcpp.sourceforge.net/ (优秀,但C ++不C) 有没有人发现任何平台独立,小代码库处理Unicodestring(不需要做归化)。 任何意见将不胜感激。

在C ++中的Unicode处理

C ++中Unicode处理的最佳实践是什么?

(grep)正则expression式匹配非ASCII字符?

在Linux上,我有一个包含大量文件的目录。 其中一些具有非ASCII字符,但都是有效的UTF-8 。 一个程序有一个错误,可以防止它使用非ASCII文件名,我必须找出有多less人受到影响。 我打算用find来做这个,然后用grep来打印非ASCII字符,然后用wc -l来find这个数字。 它不一定是grep; 我可以使用任何标准的Unix 正则expression式 ,比如Perl , sed , AWK等 但是,有没有一个“不是ASCII字符的任何字符”的正则expression式?

什么字符可以用于向上/向下的三angular形(无茎的箭头)在HTML中显示?

我正在寻找一个向上或向下的三angular形的HTML或ASCII字符,以便我可以使用它作为切换开关。 我发现↑( &uarr; );和↓( &darr; ) &darr;但是那些有一个狭窄的干。 我正在寻找HTML箭头“头”。