Tag: unicode

我可以让git将文件识别为UTF-16文件吗?

我在git中跟踪一个虚拟PC虚拟机文件(* .vmc),在做一次改变之后,git将这个文件标识为二进制文件,并且不会对我进行区分。 我发现这个文件是用UTF-16编码的。 可以教git认识到这个文件是文本,并适当地处理它? 我在Cygwin下使用git,core.autocrlf设置为false。 如果需要,我可以在UNIX下使用mSysGit或git。

Python:将Unicode转换为ASCII而不会出错

我的代码只是一个网页,然后将其转换为Unicode。 html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) 但是我得到一个UnicodeDecodeError : Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) 所以我认为这意味着HTML在某处包含一些错误的尝试。 我可以放下任何代码字节导致问题,而不是得到一个错误?

如何在Python中将string转换为小写

有没有办法将string从大写,甚至部分大写转换为小写? 例如公里 – >公里。

我怎样才能遍历Javastring的unicode代码点?

所以我知道String#codePointAt(int) ,但是它是由char偏移索引的,而不是由码点偏移量索引的。 我正在考虑尝试如下所示: 使用String#charAt(int)来获取索引处的char testingchar是否在高代理范围内 如果是的话,使用String#codePointAt(int)来获取代码点,然后将索引值加2 如果不是,则使用给定的char值作为代码点,并将索引值加1 但是我的担心是 我不确定自然处于高代理范围内的代码点是否将被存储为两个char值或一个 这似乎是一个非常昂贵的方式来遍历字符 有人一定会想出更好的东西。

Pythonstring打印为

这肯定是一个容易的,但它真的让我烦恼。 我有一个脚本,读取网页,并使用美丽的汤来parsing它。 从汤我提取所有的链接,因为我的最终目标是打印link.contents。 所有我正在parsing的文本是ASCII。 我知道Python将string视为unicode,我相信这是非常方便的,只是在我的脚本中没有用处。 每次我打印出一个包含“String”的variables时,我都会把[u'String']打印到屏幕上。 有一个简单的方法,让这回到ascii或者我应该写一个正则expression式去掉它吗?

PHPstring中的Unicode字符

这个问题看起来很尴尬简单,但我一直无法find答案。 什么是相当于下面的C#代码行的PHP? string str = "\u1000"; 本示例创build一个string,其中包含一个Unicode字符,其“Unicode数值”为hex1000(十进制数4096)。 也就是说,在PHP中,我怎样才能创build一个string与一个Unicode字符的“Unicode数值”已知?

UnicodeDecodeError:'charmap'编解码器无法解码Y位置的字节X:字符映射到<undefined>

我试图让一个Python 3程序做一些操作与文本文件充满信息。 但是,当试图读取文件时出现以下错误: Traceback (most recent call last): File "SCRIPT LOCATION", line NUMBER, in <module> text = file.read() File "C:\Python31\lib\encodings\cp1252.py", line 23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0] UnicodeDecodeError: 'charmap' codec can't decode byte 0x90 in position 2907500: character maps to <undefined> 如果有人可以给我任何帮助,试图解决这个问题,我将非常感激。 谢谢!

JavaScript中的string长度(字节)

在我的JavaScript代码中,我需要用这种格式编写一个消息给服务器: <size in bytes>CRLF <data>CRLF 例: 3 foo 数据可能包含unicode字符。 我需要把它们作为UTF-8发送。 我正在寻找最具有跨浏览器的方式来计算JavaScript中string的长度。 我已经试过这个来组成我的有效载荷: return unescape(encodeURIComponent(str)).length + "\n" + str + "\n" 但是,对于旧版本的浏览器(或者UTF-16浏览器中的string),它并没有给出准确的结果。 任何线索? 更新: 示例:string的长度(以字节为ЭЭХ! Naïve? ЭЭХ! Naïve? 在UTF-8中是15字节,而有些浏览器则报告23字节。

写Unicode文本到文本文件?

我从Google文档中提取数据,处理数据,并将其写入文件(最终我将粘贴到Wordpress页面中)。 它有一些非ASCII符号。 如何将这些安全地转换为可用于HTML源代码的符号? 目前我正在将所有内容都转换为Unicode,并将它们连接到Pythonstring中,然后执行下列操作: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) 最后一行有一个编码错误: UnicodeDecodeError:'ascii'编解码器无法解码位于12286的字节0xa0:序号不在范围内(128) 部分解决scheme: 这个Python运行没有错误: row = [unicode(x.strip()) if x is not None else u'' for x in row] all_html = row[0] + "<br/>" + row[1] f = open('out.txt', 'w') f.write(all_html.encode("utf-8") 但是,如果我打开实际的文本文件,我会看到很多符号: Qur‚Äôan 也许我需要写一个文本文件以外的东西?

Unicode(UTF-8)读取和写入Python文件

理解阅读和写文本到一个文件(Python 2.4),我有一些脑力衰竭。 # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) (“u'Capit \ xe1n'”,“'Capit \ xc3 \ xa1n'”) print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capit\xc3\xa1n\n' 所以我inputCapit\xc3\xa1n到我最喜欢的编辑器中,在文件f2中。 然后: >>> open('f1').read() 'Capit\xc3\xa1n\n' >>> open('f2').read() 'Capit\\xc3\\xa1n\n' >>> open('f1').read().decode('utf8') u'Capit\xe1n\n' >>> open('f2').read().decode('utf8') u'Capit\\xc3\\xa1n\n' 我在这里不了解什么? 显然有一些重要的魔法(或者说是有意义的)我失踪了。 一个人input到文本文件中以获得正确的转换? 我真的没有在这里讨论什么,UTF-8的代表性是什么,如果你真的不能让Python认出它,当它来自外部。 也许我应该只是JSON转储string,并使用它,因为它有一个asciiable表示! […]