如何使用正则expression式在JavaScript中去除所有标点符号？

如果我有任何types的非字母数字字符的string：

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

我将如何在JavaScript中获得它的非标点符号版本：

 "This is an example of a string with punctuation"

如果你想从一个string中删除特定的标点符号，最好是明确地删除你想要的东西

 replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")

执行上述操作仍然不会像您指定的那样返回string。如果你想删除任何多余的空格，删除疯狂的标点符号，那么你会想要做类似的事情

 replace(/\s{2,}/g," ");

我完整的例子：

 var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"; var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,""); var finalString = punctuationless.replace(/\s{2,}/g," ");

在萤幕控制台中运行代码的结果：

替代文字

 str = str.replace(/[^\w\s]|_/g, "") .replace(/\s+/g, " ");

删除除字母数字字符和空格之外的所有内容，然后将多个相邻字符折叠为单个空格。

详细说明：

\w是任何数字，字母或下划线。
\s是任何空格。
[^\w\s]是任何不是数字，字母，空格或下划线的东西。
除了加下划线外， [^\w\s]|_与＃3相同。

这里是US-ASCII的标准字符： !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

对于Unicode标点符号（如curl的引号，em-dashes等），您可以轻松地匹配特定的块范围。 一般标点符号是\u2000-\u206F ， 补充标点符号是\u2E00-\u2E7F 。

放在一起，妥善逃脱，你会得到以下RegExp：

 /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

这应该几乎匹配你遇到的任何标点符号。所以，要回答原来的问题：

 var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g; var spaceRE = /\s+/g; var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"; str.replace(punctRE, '').replace(spaceRE, ' '); >> "This is an example of a string with punctuation"

US-ASCII源代码： http : //docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

Unicode源代码： http : //kourge.net/projects/regexp-unicode-block

对于en-US（美国英语）string，这应该足够了：

 "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

请注意，如果您支持UTF-8和汉字/俄语等字符，这也将取代它们，所以您必须指定您想要的内容。

我遇到了同样的问题，这个解决scheme伎俩，是非常可读的：

 var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"; var newSen = sentence.match(/[^_\W]+/g).join(' '); console.log(newSen);

结果：

 "This is an example of a string with punctuation"

诀窍是创build一个否定集 。这意味着它匹配不在集合内的任何东西，即[^abc] – 不是a，b或c

\W是任何非单词，所以[^\W]+将否定任何不是字的字符。

通过在_（下划线）中添加，你也可以否定这一点。

使其全局应用/g ，那么你可以运行任何string，并清除标点符号：

 /[^_\W]+/g

干净而干净;）

/ [^ A-Za-z0-9 \ s] / g应匹配所有的标点符号，但保留空格。因此，如果需要，可以使用.replace(/\s{2,}/g, " ")replace多余的空格。你可以在http://rubular.com/中testing正则expression式;

 .replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

更新：只有当input是ANSI英文时才会起作用。

在支持Unicode的语言中，Unicode 标点符号属性是\p{P} – 为了便于阅读，您通常可以缩写\pP ，有时会扩展为\p{Punctuation} 。

您是否使用Perl兼容的正则expression式库？

我只是把它放在这里给其他人。

匹配所有语言的所有标点符号：

从Unicode标点符号类别构造，并添加了像$和括号和\-=_

http://www.fileformat.info/info/unicode/category/Po/list.htm

基本replace：

 ".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"") "testda text"

添加为空间

 ".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

添加^反转patternt匹配不标点符号，但他们自己的话

 ".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

像希伯来语这样的语言可能会删除单引号和双引号，并且对它进行更多的思考。

使用这个脚本：

第1步：在Firefox中select控制一列U + 1234号码并复制它，不要复制U + 12456它们代替英文

第2步（我在Chrome中）find一些textarea并粘贴到它，然后右键单击检查。那么你可以用$ 0访问选定的元素。

 var x=$0.value var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)}) var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else { var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")

步骤3将ascii的第一个字母复制为单独的字符而不是范围，因为有人可能会添加或删除单个字符

根据维基百科的标点列表，我不得不build立下面的正则expression式来检测标点符号：

[\.''\[\](){}⟨⟩:,،、‒–—―…!.‹›«»‐\-?''“”'";/⁄·\&*@\•^†‡°”¡¿※#№÷×ºª%‰+−=‱¶′″‴§~_|‖¦©℗®℠™¤₳฿₵¢₡₢$₫₯֏₠€ƒ₣₲₴₭₺₾ℳ₥₦₧₱₰£៛₽₹₨₪৳₸₮₩¥]

如果你只想保留字母和空格，你可以这样做：

 str.replace(/[^a-zA-Z ]+/g, '').replace('/ {2,}/',' ')

如果你正在使用lodash

 _.words('This, is : my - test,line:').join(' ')

这个例子

 _.words('"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"').join(' ')

如何使用正则expression式在JavaScript中去除所有标点符号？

从stringJavaScript新regexp

如何添加http：//如果它不存在于URL中？

如何指定“空格或string的结尾”和“空格或string的开始”？

密码必须是8个字符，包括1个大写字母，1个特殊字符，字母数字字符

replacestring中的反向引用语法（为什么是美元符号？）

用Javascript中的大写replace正则expression式捕获组

崇高的文字：正则expression式将大写字母转换为标题大小写？

和/或正则expression式中的操作符

为什么VIM有自己的正则expression式语法？

匹配正则expression式，并在单行代码中分配结果