Java字符串分割删除空值

我正在尝试使用分隔符分割值。 但是我发现令人惊讶的结果

String data = "5|6|7||8|9||";
String[] split = data.split("\\|");
System.out.println(split.length);

我期望得到8个值。< >强(5、6、7,空的,8,9,空的,空) 但是我只得到6个值

任何想法以及如何修复。无论EMPTY值出现在任何位置,它都应该在数组中。

214196 次浏览

split(delimiter)默认从结果数组中移除尾随的空字符串。要关闭此机制,我们需要使用重载版本的split(delimiter, limit),并将limit设置为负值,如

String[] split = data.split("\\|", -1);

更多细节:
split(regex)内部返回split(regex, 0)的结果,在该方法的文档中,你可以找到(强调我的)

limit参数控制模式被应用的次数,因此会影响结果数组的长度。

如果限制n大于0,则模式将最多应用n - 1次,数组的长度将不大于n,并且数组的最后一个条目将包含最后一个匹配的分隔符以外的所有输入。

如果n非容积,则模式将被应用尽可能多的次数,并且数组可以是任意长度。

如果n,则模式将被应用尽可能多的次数,数组可以有任何长度,而尾随空字符串将被丢弃. c。

异常:

值得一提的是,删除尾随的空字符串是有意义的除非这些空字符串是由分裂机制创建的。因此,对于"".split(anything),由于我们不能进一步分割"",我们将得到[""]数组的结果。
发生这种情况是因为这里没有发生分裂,所以""尽管是空的,并且在后面表示原始字符串,而不是分裂过程中创建的空字符串

String.split() API Doc .split(:

根据给定正则表达式的匹配情况拆分字符串。 该方法的工作原理就像调用带有两个参数的split方法一样 给定的表达式和一个极限参数为0。落后于空 字符串因此不包含在结果数组中

重载< >强字符串。split(正则表达式,int) < / >强更适合你的情况。

来自String.split(String regex)的文档:

该方法的工作原理就像使用给定表达式和限制参数为0调用双参数split方法一样。因此,尾随的空字符串不包括在结果数组中。

所以你必须使用两个参数version String.split(String regex, int limit),并带一个负值:

String[] split = data.split("\\|",-1);

道格:

如果限制n大于零,则模式将最多应用n - 1次,数组的长度将不大于n,并且数组的最后一个条目将包含最后一个匹配的分隔符以外的所有输入。如果n是非正数,则模式将被应用尽可能多的次数,并且数组可以有任何长度。如果n为零,则模式将被应用尽可能多的次数,数组可以有任何长度,尾随的空字符串将被丢弃。

这将不会遗漏任何空元素,包括后面的元素。

String[] split = data.split("\\|",-1);

这并不是一直以来的实际要求。其缺点如下:

Scenerio 1:
When all data are present:
String data = "5|6|7||8|9|10|";
String[] split = data.split("\\|");
String[] splt = data.split("\\|",-1);
System.out.println(split.length); //output: 7
System.out.println(splt.length); //output: 8

当数据缺失时:

Scenerio 2: Data Missing
String data = "5|6|7||8|||";
String[] split = data.split("\\|");
String[] splt = data.split("\\|",-1);
System.out.println(split.length); //output: 5
System.out.println(splt.length); //output: 8

真正的要求是长度应该是7,尽管有数据缺失。因为有些情况下,比如我需要插入数据库或其他东西。我们可以通过使用下面的方法来实现这一点。

    String data = "5|6|7||8|||";
String[] split = data.split("\\|");
String[] splt = data.replaceAll("\\|$","").split("\\|",-1);
System.out.println(split.length); //output: 5
System.out.println(splt.length); //output:7

我在这里所做的是,我在末尾删除“|”管道,然后分割字符串。如果你有“,”作为分隔符,那么你需要在replaceAll中添加“,$”。

你可以有多个分隔符,包括空格字符,逗号,分号等,把那些可重复的组与[]+,像:

 String[] tokens = "a , b,  ,c; ;d,      ".split( "[,; \t\n\r]+" );

你有4个代币,a b c d

源字符串中的前导分隔符需要在应用此分割之前删除。

作为对问题的回答:

String data = "5|6|7||8|9||";
String[] split = data.split("[\\| \t\n\r]+");

如果您将这些作为分隔符和|,则添加空格以防万一