C# 如何超越这个正则表达式替代品?
经过大量测量,我已经在我们的一个windows服务中发现了一个热点,我想对其进行优化。我们正在处理可能包含多个连续空格的字符串,我们希望将其缩减为仅包含单个空格。我们使用静态编译的正则表达式执行此任务:C# 如何超越这个正则表达式替代品?,c#,regex,optimization,string,C#,Regex,Optimization,String,经过大量测量,我已经在我们的一个windows服务中发现了一个热点,我想对其进行优化。我们正在处理可能包含多个连续空格的字符串,我们希望将其缩减为仅包含单个空格。我们使用静态编译的正则表达式执行此任务: private static readonly Regex regex_select_all_multiple_whitespace_chars = new Regex(@"\s+",RegexOptions.Compiled); 然后按如下方式使用: var cl
private static readonly Regex
regex_select_all_multiple_whitespace_chars =
new Regex(@"\s+",RegexOptions.Compiled);
然后按如下方式使用:
var cleanString=
regex_select_all_multiple_whitespace_chars.Replace(dirtyString.Trim(), " ");
这条线被调用了数百万次,并且被证明是相当密集的。我试图写些更好的东西,但我被难倒了。鉴于正则表达式的处理要求相当温和,肯定有更快的东西。使用指针进行不安全的处理会进一步加快速度吗
编辑:
谢谢你对这个问题的惊人回答。。。真想不到 只有一个建议,如果您的数据没有unicode空格,请使用[\r\n]+
或[\n]+
或+
(如果只有空格),基本上将其限制为最小字符集。目前,您正在用另一个空格替换单个空格。尝试匹配\s{2,}
(或者类似的东西,如果您想替换单个换行符和其他字符) 无法使用正则表达式。例如:
private static string NormalizeWhitespace(string test)
{
string trimmed = test.Trim();
var sb = new StringBuilder(trimmed.Length);
int i = 0;
while (i < trimmed.Length)
{
if (trimmed[i] == ' ')
{
sb.Append(trimmed[i]);
do { i++; } while (i < trimmed.Length && trimmed[i] == ' ');
}
sb.Append(trimmed[i]);
i++;
}
return sb.ToString();
}
请注意,这仅通过一个非常简单的示例进行了测试,可以通过删除对String.Trim
的调用进行进一步优化,并且仅用于说明正则表达式有时不是最佳答案。这大约快三倍:
private static string RemoveDuplicateSpaces(string text) {
StringBuilder b = new StringBuilder(text.Length);
bool space = false;
foreach (char c in text) {
if (c == ' ') {
if (!space) b.Append(c);
space = true;
} else {
b.Append(c);
space = false;
}
}
return b.ToString();
}
我很好奇一个直接的实现会如何执行:
static string RemoveConsecutiveSpaces(string input)
{
bool whiteSpaceWritten = false;
StringBuilder sbOutput = new StringBuilder(input.Length);
foreach (Char c in input)
{
if (c == ' ')
{
if (!whiteSpaceWritten)
{
whiteSpaceWritten = true;
sbOutput.Append(c);
}
}
else
{
whiteSpaceWritten = false;
sbOutput.Append(c);
}
}
return sbOutput.ToString();
}
由于它是这样一个简单的表达式,将两个或多个空格替换为一个空格,因此请去掉Regex对象并自己硬编码替换内容(在C++/CLI中):
String^text=“一些要处理的文本”;
布尔空间=假;
//使下面的静态文件保持干净,而不是每次都重新分配它
System::Text::StringBuilder^output=gcnew System::Text::StringBuilder;
对于(int i=0,l=text->Length;i追加(文本[i]);
空格=假;
}
}
其他的
{
输出->追加(文本[i]);
如果(文本[i]='')
{
空格=真;
}
}
}
text=output->ToString();
这个怎么样
public string RemoveMultiSpace(string test)
{
var words = test.Split(new char[] { ' ' },
StringSplitOptions.RemoveEmptyEntries);
return string.Join(" ", words);
}
使用NUnit运行测试用例:
测试时间以毫秒为单位
Regex Test time: 338,8885
RemoveMultiSpace Test time: 78,9335
阵列总是会更快
public static string RemoveMultiSpace(string input)
{
var value = input;
if (!string.IsNullOrEmpty(input))
{
var isSpace = false;
var index = 0;
var length = input.Length;
var tempArray = new char[length];
for (int i = 0; i < length; i++)
{
var symbol = input[i];
if (symbol == ' ')
{
if (!isSpace)
{
tempArray[index++] = symbol;
}
isSpace = true;
}
else
{
tempArray[index++] = symbol;
isSpace = false;
}
}
value = new string(tempArray, 0, index);
}
return value;
}
publicstaticstringremovemultispace(字符串输入)
{
var值=输入;
如果(!string.IsNullOrEmpty(输入))
{
var-isSpace=false;
var指数=0;
变量长度=输入长度;
var tempArray=新字符[长度];
for(int i=0;i
您是经常在较小的字符串上运行它,还是在巨大的字符串上运行它strings@rob,它在大约10-40个字符长的字符串上运行,不确定C++/CLI是否正确!语法稍有不同,但将上述内容更改为C并不难。我刚刚打开了一个C++/CLI项目来测试代码(是的,我知道,但我必须使用它)。除了空白不仅仅是'
,而且您不使用变量trimemd
,这正是我要建议的+1@Rob丰塞卡·恩索尔,感谢你发现了这一点,这是最后一分钟的不完全改变我同意。对于关键点,快速测试表明我们可以做得更好。可能是因为代码更改与性能的比率非常好。在正则表达式中仅更改几个字符即可提高25%:)那太好了。快速浅层测试表明这比StringBuilder方法更快。更新:抱歉,起初我忘记了loop over RemoveMultiSpace方法。我认为测试结果看起来太糟糕了。;)它比使用StringBuilder快一点,但它也会创建一组临时字符串。您必须使用一些真实数据来尝试这些方法,以了解其对性能的影响。有人知道为什么这比StringBuilder方法快吗?@Heinzi:它在框架中使用优化(不安全模式或非托管)方法,比使用StringBuilder的托管代码快。尽管拆分联接做了一些额外的工作,但在某些情况下它的速度仍然更快,大约是正则表达式的三倍。Se我的答案(代码基本相同)。过度使用var
关键字。为什么要将数组复制到另一个数组,而不是仅仅从tempArray创建字符串?@“{2,}”的性能几乎(在10%以内)与我的数据中建议的最佳方法一样好,回答得太好了!我选择了这个变体。使用for(int i…代替foreach,使用char c=text[i]可以提高一点速度。再次感谢大家。
public string RemoveMultiSpace(string test)
{
var words = test.Split(new char[] { ' ' },
StringSplitOptions.RemoveEmptyEntries);
return string.Join(" ", words);
}
Regex Test time: 338,8885
RemoveMultiSpace Test time: 78,9335
private static readonly Regex regex_select_all_multiple_whitespace_chars =
new Regex(@"\s+", RegexOptions.Compiled);
[Test]
public void Test()
{
string startString = "A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F ";
string cleanString;
Trace.WriteLine("Regex Test start");
int count = 10000;
Stopwatch timer = new Stopwatch();
timer.Start();
for (int i = 0; i < count; i++)
{
cleanString = regex_select_all_multiple_whitespace_chars.Replace(startString, " ");
}
var elapsed = timer.Elapsed;
Trace.WriteLine("Regex Test end");
Trace.WriteLine("Regex Test time: " + elapsed.TotalMilliseconds);
Trace.WriteLine("RemoveMultiSpace Test start");
timer = new Stopwatch();
timer.Start();
for (int i = 0; i < count; i++)
{
cleanString = RemoveMultiSpace(startString);
}
elapsed = timer.Elapsed;
Trace.WriteLine("RemoveMultiSpace Test end");
Trace.WriteLine("RemoveMultiSpace Test time: " + elapsed.TotalMilliseconds);
}
public string RemoveMultiSpace(string test)
{
var words = test.Split(new char[] { ' ' }, StringSplitOptions.RemoveEmptyEntries);
return string.Join(" ", words);
}
Cleaning file with about 30000 lines, 10 iterations
RegEx time elapsed: 608,0623
RemoveMultiSpace time elapsed: 239,2049
RemoveDuplicateSpaces time elapsed: 307,2044
Cleaning string, 10000 iterations:
A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F
RegEx time elapsed: 590,3626
RemoveMultiSpace time elapsed: 159,4547
RemoveDuplicateSpaces time elapsed: 137,6816
Cleaning string, 10000 iterations:
A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F A B C D E F
RegEx time elapsed: 290,5666
RemoveMultiSpace time elapsed: 64,6776
RemoveDuplicateSpaces time elapsed: 52,4732
public static string RemoveMultiSpace(string input)
{
var value = input;
if (!string.IsNullOrEmpty(input))
{
var isSpace = false;
var index = 0;
var length = input.Length;
var tempArray = new char[length];
for (int i = 0; i < length; i++)
{
var symbol = input[i];
if (symbol == ' ')
{
if (!isSpace)
{
tempArray[index++] = symbol;
}
isSpace = true;
}
else
{
tempArray[index++] = symbol;
isSpace = false;
}
}
value = new string(tempArray, 0, index);
}
return value;
}