有没有一个跨平台的Java方法来删除文件名特殊字符？

我正在制作一个跨平台的应用程序，根据在线检索的数据重命名文件。我想清理从当前平台的Web API中获取的string。

我知道不同的平台有不同的文件名要求，所以我想知道是否有一个跨平台的方式来做到这一点？

编辑：在Windows平台上，你不能有一个问号？在文件名中，而在Linux中，你可以。文件名可能包含这样的字符，我希望支持这些字符的平台保留它们，否则，将它们去掉。

另外，我更喜欢一个不需要第三方库的标准Java解决scheme。

正如其他地方所build议的，这通常不是你想要做的。通常最好使用File.createTempFile（）等安全方法创build临时文件。

你不应该用白名单做这个，只保留“好”的字符。如果这个文件只有中文字符，那么你会把所有的东西都删掉。由于这个原因，我们不能使用白名单，我们必须使用黑名单。

Linux几乎可以让任何事情变成真正的痛苦。我只是将Linux限制在限制Windows的同一个列表中，这样您就可以在将来节省自己的麻烦。

在Windows上使用这个C＃代码片段，我产生了一个在Windows上无效的字符列表。这个列表中有不止一个字符比你想像的还要多（41），所以我不build议尝试创build你自己的列表。

foreach (char c in new string(Path.GetInvalidFileNameChars())) { Console.Write((int)c); Console.Write(","); }

这是一个简单的Java类，它清理文件名。

 public class FileNameCleaner { final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47}; static { Arrays.sort(illegalChars); } public static String cleanFileName(String badFileName) { StringBuilder cleanName = new StringBuilder(); for (int i = 0; i < badFileName.length(); i++) { int c = (int)badFileName.charAt(i); if (Arrays.binarySearch(illegalChars, c) < 0) { cleanName.append((char)c); } } return cleanName.toString(); } }

编辑：正如斯蒂芬build议你可能也应该validation这些文件访问只发生在你允许的目录内。

下面的答案具有示例代码，用于在Java中build立自定义安全上下文，然后在该“沙盒”中执行代码。

你如何创build一个安全的JEXL（脚本）沙箱？

或者只是这样做：

 String filename = "A20/B22b#öA\\BC#Ä$%ld_ma.la.xps"; String sane = filename.replaceAll("[^a-zA-Z0-9\\._]+", "_");

结果： A20_B22b_A_BC_ld_ma.la.xps

说明：

[a-zA-Z0-9\\._]匹配az大写或小写字母，数字，圆点和下划线

[^a-zA-Z0-9\\._]是相反的。即与第一个expression式不匹配的所有字符

[^a-zA-Z0-9\\._]+是一个与第一个expression式不匹配的字符序列

所以每个字符序列不是由az，0-9或者。 _将被replace。

这是基于Sarel Botha接受的答案，只要你没有遇到基本多语言平面以外的任何angular色，这个答案就可以正常工作。如果您需要完整的Unicode支持（而谁不支持？），请使用Unicode安全代码：

 public class FileNameCleaner { final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47}; static { Arrays.sort(illegalChars); } public static String cleanFileName(String badFileName) { StringBuilder cleanName = new StringBuilder(); int len = badFileName.codePointCount(0, badFileName.length()); for (int i=0; i<len; i++) { int c = badFileName.codePointAt(i); if (Arrays.binarySearch(illegalChars, c) < 0) { cleanName.appendCodePoint(c); } } return cleanName.toString(); } }

这里的关键变化：

使用codePointCount icw length而不是length
使用codePointAt而不是charAt
使用appendCodePoint而不是append
不需要将char为int 。事实上，你不应该对char处理，因为它们在BMP之外的任何东西基本上都是坏的。

有一个非常好的内置Java解决scheme – Character.isXxx（） 。

尝试Character.isJavaIdentifierPart(c) ：

 String name = "name.é+!@#$%^&*(){}][/=?+-_\\|;:`~!'\",<>"; StringBuilder filename = new StringBuilder(); for (char c : name.toCharArray()) { if (c=='.' || Character.isJavaIdentifierPart(c)) { filename.append(c); } }

结果是“name.é$ _”。

从你的问题中不清楚，但是因为你打算接受来自Web窗体（？）的path名，你可能应该尝试重新命名某些东西; 例如“C：\ Program Files”。这意味着你需要规范化path名以消除“。” 和“..”，然后再进行检查。

鉴于此，我不会试图删除非法字符。相反，我会使用“新的File（str）.getCanonicalFile（）”来产生规范path，接下来检查它们是否满足你的沙盒限制，最后使用“File.exists（）”，“File.isFile（）”等来检查源和目的地是否是犹太洁食，而不是相同的文件系统对象。我会通过尝试执行操作和捕捉exception来处理非法字符。

这是我使用的代码：

 public static String sanitizeName( String name ) { if( null == name ) { return ""; } if( SystemUtils.IS_OS_LINUX ) { return name.replaceAll( "/+", "" ).trim(); } return name.replaceAll( "[\u0001-\u001f<>:\"/\\\\|?*\u007f]+", "" ).trim(); }

SystemUtils来自Apache commons-lang3

有没有一个跨平台的Java方法来删除文件名特殊字符？

命名类和命名他们的文件在python（约定？）之间的关联

有没有无效的Linux文件名？

表名称作为variables