用Pythonreplace多个字符
我需要replace一些字符,如下所示: &
– > \&
, #
– > \#
,…
我编码如下,但我想应该有一些更好的办法。 任何提示?
strs = strs.replace('&', '\&') strs = strs.replace('#', '\#') ...
>>> string="abc&def#ghi" >>> for ch in ['&','#']: ... if ch in string: ... string=string.replace(ch,"\\"+ch) ... >>> print string abc\&def\#ghi
replace两个字符
我将当前答案中的所有方法与一个额外的时间一起计时。
用abc&def#ghi
的inputstringreplace& – > \&和# – >#,最快的方法就是将replace项链接在一起,例如: text.replace('&', '\&').replace('#', '\#')
。
每个function的计时:
- a)1000000次循环,最好是3次:每循环1.47μs
- b)1000000个循环,最好是3:每个循环1.51μs
- c)100000个循环,最好是每个循环12.3μs
- d)100000个回路,最好每个回路3:12μs
- e)100000个循环,最好是3:每个循环3.27μs
- f)1000000循环,最好是3:每循环0.817μs
- g)100000循环,最好是3:每循环3.64μs
- h)1000000个循环,最好为3:每循环0.927μs
- i)1000000循环,最好是3:每循环0.814μs
这里是function:
def a(text): chars = "&#" for c in chars: text = text.replace(c, "\\" + c) def b(text): for ch in ['&','#']: if ch in text: text = text.replace(ch,"\\"+ch) import re def c(text): rx = re.compile('([&#])') text = rx.sub(r'\\\1', text) RX = re.compile('([&#])') def d(text): text = RX.sub(r'\\\1', text) def mk_esc(esc_chars): return lambda s: ''.join(['\\' + c if c in esc_chars else c for c in s]) esc = mk_esc('&#') def e(text): esc(text) def f(text): text = text.replace('&', '\&').replace('#', '\#') def g(text): replacements = {"&": "\&", "#": "\#"} text = "".join([replacements.get(c, c) for c in text]) def h(text): text = text.replace('&', r'\&') text = text.replace('#', r'\#') def i(text): text = text.replace('&', r'\&').replace('#', r'\#')
这样计时:
python -mtimeit -s"import time_functions" "time_functions.a('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.b('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.c('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.d('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.e('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.f('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.g('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.h('abc&def#ghi')" python -mtimeit -s"import time_functions" "time_functions.i('abc&def#ghi')"
replace17个字符
这里是类似的代码来做同样的事情,但有更多的字符来转义(\ * * {}>#+ – 。!$):
def a(text): chars = "\\`*_{}[]()>#+-.!$" for c in chars: text = text.replace(c, "\\" + c) def b(text): for ch in ['\\','`','*','_','{','}','[',']','(',')','>','#','+','-','.','!','$','\'']: if ch in text: text = text.replace(ch,"\\"+ch) import re def c(text): rx = re.compile('([&#])') text = rx.sub(r'\\\1', text) RX = re.compile('([\\`*_{}[]()>#+-.!$])') def d(text): text = RX.sub(r'\\\1', text) def mk_esc(esc_chars): return lambda s: ''.join(['\\' + c if c in esc_chars else c for c in s]) esc = mk_esc('\\`*_{}[]()>#+-.!$') def e(text): esc(text) def f(text): text = text.replace('\\', '\\\\').replace('`', '\`').replace('*', '\*').replace('_', '\_').replace('{', '\{').replace('}', '\}').replace('[', '\[').replace(']', '\]').replace('(', '\(').replace(')', '\)').replace('>', '\>').replace('#', '\#').replace('+', '\+').replace('-', '\-').replace('.', '\.').replace('!', '\!').replace('$', '\$') def g(text): replacements = { "\\": "\\\\", "`": "\`", "*": "\*", "_": "\_", "{": "\{", "}": "\}", "[": "\[", "]": "\]", "(": "\(", ")": "\)", ">": "\>", "#": "\#", "+": "\+", "-": "\-", ".": "\.", "!": "\!", "$": "\$", } text = "".join([replacements.get(c, c) for c in text]) def h(text): text = text.replace('\\', r'\\') text = text.replace('`', r'\`') text = text.replace('*', r'\*') text = text.replace('_', r'\_') text = text.replace('{', r'\{') text = text.replace('}', r'\}') text = text.replace('[', r'\[') text = text.replace(']', r'\]') text = text.replace('(', r'\(') text = text.replace(')', r'\)') text = text.replace('>', r'\>') text = text.replace('#', r'\#') text = text.replace('+', r'\+') text = text.replace('-', r'\-') text = text.replace('.', r'\.') text = text.replace('!', r'\!') text = text.replace('$', r'\$') def i(text): text = text.replace('\\', r'\\').replace('`', r'\`').replace('*', r'\*').replace('_', r'\_').replace('{', r'\{').replace('}', r'\}').replace('[', r'\[').replace(']', r'\]').replace('(', r'\(').replace(')', r'\)').replace('>', r'\>').replace('#', r'\#').replace('+', r'\+').replace('-', r'\-').replace('.', r'\.').replace('!', r'\!').replace('$', r'\$')
下面是相同的inputstringabc&def#ghi
:
- a)100000个循环,最好是3个:每个循环6.72μs
- b) 100000个循环,最好是3:每循环2.64μs
- c)100000个循环,每个循环最好3:11.9μs
- d)100000个循环,最好是每个循环3:4.92μs
- e) 100000个循环,最好为3:每循环2.96μs
- f)100000个循环,最好为3:每循环4.29μs
- g)100000个循环,最好3个:每个循环4.68μs
- h)100000个循环,最好为3:每循环4.73μs
- i)100000个循环,最好为3:每循环4.24μs
并且用更长的inputstring( ## *Something* and [another] thing in a longer sentence with {more} things to replace$
):
- a)100000个循环,最好是3:每个循环7.59μs
- b)100000个循环,最好是3:每循环6.54μs
- c)100000个循环,最好每个循环3:16.9μs
- d)100000个循环,最好3个:每个循环7.29μs
- e)100000个循环,每个循环最好3:12.2μs
- f) 100000次循环,最好3次:每循环5.38μs
- g)10000次循环,最好3次:每个循环21.7μs
- h) 100000个循环,最好是3个:每个循环5.7μs
- i) 100000循环,最好是3:每循环5.13μs
添加几个变体:
def ab(text): for ch in ['\\','`','*','_','{','}','[',']','(',')','>','#','+','-','.','!','$','\'']: text = text.replace(ch,"\\"+ch) def ba(text): chars = "\\`*_{}[]()>#+-.!$" for c in chars: if c in text: text = text.replace(c, "\\" + c)
用较短的input:
- ab)100000个循环,最好3个:每个循环7.05μs
- ba)100000循环,最好是3:每循环2.4μs
随着更长的input:
- ab)100000个循环,最好是3:每个循环7.71μs
- ba)100000循环,最好是3:每循环6.08μs
所以我打算用可读性和速度来使用ba
。
附录
在评论中被haccks提示, ab
和ba
之间的一个区别是if c in text:
的if c in text:
check。 让我们testing他们两个更多的变种:
def ab_with_check(text): for ch in ['\\','`','*','_','{','}','[',']','(',')','>','#','+','-','.','!','$','\'']: if ch in text: text = text.replace(ch,"\\"+ch) def ba_without_check(text): chars = "\\`*_{}[]()>#+-.!$" for c in chars: text = text.replace(c, "\\" + c)
Python 2.7.14和3.6.3的每个循环的时间单位是μs,而与之前设置的机器不同,因此无法直接进行比较。
╭────────────╥──────┬───────────────┬──────┬──────────────────╮ │ Py, input ║ ab │ ab_with_check │ ba │ ba_without_check │ ╞════════════╬══════╪═══════════════╪══════╪══════════════════╡ │ Py2, short ║ 8.81 │ 4.22 │ 3.45 │ 8.01 │ │ Py3, short ║ 5.54 │ 1.34 │ 1.46 │ 5.34 │ ├────────────╫──────┼───────────────┼──────┼──────────────────┤ │ Py2, long ║ 9.3 │ 7.15 │ 6.85 │ 8.55 │ │ Py3, long ║ 7.43 │ 4.38 │ 4.41 │ 7.02 │ └────────────╨──────┴───────────────┴──────┴──────────────────┘
我们可以得出结论:
-
那些支票的人比没有支票的人快4倍
-
在Python 3中,
ab_with_check
略微领先,但是ba
(带有检查)在Python 2上有更大的优势 -
但是,最大的教训是Python 3比Python 2快3倍 ! Python 3上的最慢和Python 2上的最快之间没有太大的区别!
只需链接这样的replace
function
strs = "abc&def#ghi" print strs.replace('&', '\&').replace('#', '\#') # abc\&def\#ghi
如果replace的数量会更多,可以用这种通用的方法来完成
strs, replacements = "abc&def#ghi", {"&": "\&", "#": "\#"} print "".join([replacements.get(c, c) for c in strs]) # abc\&def\#ghi
你总是要预先加一个反斜杠吗? 如果是这样,请尝试
import re rx = re.compile('([&#])') # ^^ fill in the characters here. strs = rx.sub('\\\\\\1', strs)
这可能不是最有效的方法,但我认为这是最简单的方法。
你可以考虑写一个通用的转义函数:
def mk_esc(esc_chars): return lambda s: ''.join(['\\' + c if c in esc_chars else c for c in s]) >>> esc = mk_esc('&#') >>> print esc('Learn & be #1') Learn \& be \#1
这样你可以使你的函数可以configuration一个应该被转义的字符列表。
仅供参考,这对于OP来说很less或根本没有用,但对其他读者可能是有用的(请不要低估,我意识到这一点)。
作为一个有点荒谬但有趣的练习,想看看我是否可以使用python函数式编程来replace多个字符。 我敢肯定,这不会打败只是调用两次()。 如果性能是一个问题,你可以很容易地打败这个锈,C,茱莉亚,Perl,Java,JavaScript甚至AWK。 它使用一个名为pytoolz的外部“helper”包,通过cython加速( cytoolz,这是一个pypi包 )。
from cytoolz.functoolz import compose from cytoolz.itertoolz import chain,sliding_window from itertools import starmap,imap,ifilter from operator import itemgetter,contains text='&hello#hi&yo&' char_index_iter=compose(partial(imap, itemgetter(0)), partial(ifilter, compose(partial(contains, '#&'), itemgetter(1))), enumerate) print '\\'.join(imap(text.__getitem__, starmap(slice, sliding_window(2, chain((0,), char_index_iter(text), (len(text),))))))
我甚至不会解释这个,因为没有人会打扰使用这个来完成多个replace。 不过,我觉得这样做有点成就,认为这可能会激发其他读者或赢得代码混淆比赛。
>>> a = '&#' >>> print a.replace('&', r'\&') \&# >>> print a.replace('#', r'\#') &\# >>>
你想使用一个'原始'string(用replacestring前缀'r'表示),因为原始string不能专门处理反斜杠。