正则expression式：什么是InCombiningDiacriticalMarks？

下面的代码是非常有名的将重音字符转换为纯文本：

Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");

我用这个replace了我的“手工制造”方法，但我需要了解replaceAll的“正则expression式”部分

1）什么是“合并病态标记”？
2）文件在哪里？（和类似的？）

谢谢。

\p{InCombiningDiacriticalMarks}是一个Unicode块属性。在JDK7中，您可以使用分为两部分的符号\p{Block=CombiningDiacriticalMarks}来编写它，这对读者来说可能更清楚。它在UAX＃44中有记载：“Unicode字符数据库” 。

这意味着代码点在一个特定的范围内，一个块被分配用于这个名字的事物。这是一个坏的方法，因为不能保证该范围内的代码点是或不是特定的东西，也不能保证该块外的代码点本质上不是相同的字符。

例如， \p{Latin_1_Supplement}块中有拉丁字母，如é，U + 00E9。但是，那里也有不是拉丁字母的东西。当然，也有拉丁字母到处都是。

块几乎不是你想要的。

在这种情况下，我怀疑你可能想要使用属性\p{Mn} ，又名\p{Nonspacing_Mark} 。 Combining_Diacriticals块中的所有代码点都是这样的。还有（如Unicode 6.0.0）1087 Nonspacing_Marks 不在该块中。

这与检查\p{Bidi_Class=Nonspacing_Mark}几乎相同，但不完全相同，因为该组还包含封闭标记\p{Me} 。如果你想同时使用默认的Java正则expression式引擎，那么你可以说[\p{Mn}\p{Me}] ，因为它只允许访问General_Category属性。

您必须使用JNI以像访问\p{BC=NSM}那样的方式访问ICU C ++正则expression式库，因为现在只有ICU和Perl才能访问所有 Unicode属性。普通的Java正则expression式库仅支持一些标准的Unicode属性。在JDK7中，虽然会支持Unicode Script propery，这对Block属性来说是无限可取的。因此，您可以在JDK7中写入\p{Script=Latin}或\p{SC=Latin} ，或者使用\p{Latin}快捷键来获取拉丁脚本中的任何字符。这导致非常普遍需要的[\p{Latin}\p{Common}\p{Inherited}] 。

请注意，这并不会消除所有angular色的“口音”标记。有很多它不会这样做。例如，您不能将Đ转换为D或ø 。为此，需要将代码点减less为与Unicode归类表中的主归类强度相同的那些代码点。

\p{Mn}失败的另一个地方显然是包含\p{Me}这样的标记，但是也有\p{Diacritic}字符不是标记。可悲的是，你需要完全的财产支持，这意味着JNI要么ICU或Perl。 Java有很多与Unicode支持有关的问题，恐怕。

等等，我看你是葡萄牙人。你应该没有问题，如果你只是在处理葡萄牙文。

但是，我敢打赌，你并不想删除口音，而是希望能够匹配“重音不敏感”的东西，对吗？如果是这样，那么您可以使用ICU4J（ICU for Java）整理器类来完成。如果你比较主要的力量，重音符号将不计算在内。我一直这样做，因为我经常处理西class牙文本。我有一个如何做到这一点的西class牙人坐在这里某处的例子，如果你需要它。

花了我一段时间，但我把他们全部吃完了：

这里的正则expression式应该包含所有的zalgo字符，包括在“正常”范围内绕过的字符。

 ([\u0300–\u036F\u1AB0–\u1AFF\u1DC0–\u1DFF\u20D0–\u20FF\uFE20–\uFE2F\u0483-\u0486\u05C7\u0610-\u061A\u0656-\u065F\u0670\u06D6-\u06ED\u0711\u0730-\u073F\u0743-\u074A\u0F18-\u0F19\u0F35\u0F37\u0F72-\u0F73\u0F7A-\u0F81\u0F84\u0e00-\u0eff\uFC5E-\uFC62])

希望这可以为你节省一些时间。

正则expression式：什么是InCombiningDiacriticalMarks？

PHP正则expression式从string中删除http：//

re.findall返回一个命名捕获组的字典？

使用JavaScriptvalidation电话号码

正则expression式只匹配字母

如何通过匹配在水豚的元素的确切文本find一个元素

Python中lambdaexpression式的赋值

正则expression式：有AND运算符吗？

python中'和'（布尔）与'＆'（按位）之间的区别。为什么在列表与numpy数组的行为差异？

我怎样才能排除一个字与grep？

LINQ的Expression.Quote方法的目的是什么？

正则expression式：什么是InCombiningDiacriticalMarks？

PHP正则expression式从string中删除http：//

re.findall返回一个命名捕获组的字典？

使用JavaScriptvalidation电话号码

正则expression式只匹配字母

如何通过匹配在水豚的元素的确切文本find一个元素

Python中lambdaexpression式的赋值

正则expression式：有AND运算符吗？

python中'和'（布尔）与'＆'（按位）之间的区别。 为什么在列表与numpy数组的行为差异？

我怎样才能排除一个字与grep？

LINQ的Expression.Quote方法的目的是什么？

python中'和'（布尔）与'＆'（按位）之间的区别。为什么在列表与numpy数组的行为差异？