Tag: unicode

从Python中的文件读取字符: 在一个文本文件中，有一个string“我不喜欢这个”。但是，当我将它读入一个string时，它变成了“我不喜欢这样”。我明白，“是”的Unicode代表。我用 f1 = open (file1, "r") text = f1.read() 命令做阅读。现在，读取string是不是可以这样读取string：“我不喜欢这个”，而不是像这样的“我不喜欢这个”？二，编辑：我看过一些人用映射来解决这个问题，但是真的，有没有内置的转换来做这种ANSI到unicode（反之亦然）的转换呢？

不一致的Unicode表情符号字形/符号: 我一直试图在苹果和iOS的产品中使用Unicode符号进行占星术。我得到不一致的结果，如下所示：其中大部分都是我喜欢的，但由于某种原因，金牛座的符号在月亮之后出现在第一行上，并且与火星相似，表情符号与紫色button非常不同。这些结果对于不同的符号和Apple硬件是一致的; 这里是我的手机屏幕截图显示与其他迹象相同的问题 – 天蝎座出来没事，但天秤座和巨蟹座是button。 string非常简单; “月亮金牛座”中的第一个图像是“月亮”，对于金牛座，基本上组装为[NSString stringWithFormat:@"%@%@", @"\u263D", @"\u2649"] 。 “火星金牛座”的形象是一样的，只有火星\u2642 。 string格式在OSX表的不同单元格和iOS的AttributedString中是相同的。任何想法是什么使这些符号有时以一种方式出现，而另一种方式呢？

在标签中填充Unicode字符: 如何在Swing中“填充”标签中的Unicode字符？我试图为最近编程的国际象棋程序制作一个用户界面（用上面看到的象棋棋子）。在这里我使用Unicode字符来表示我的棋子（ \u2654到\u265F ）。问题如下：当我将我的棋子JLabel的背景设置为白色时，整个标签都被填充了（在我的情况下，它是一个50 * 50px的白色正方形，正方形）。这导致我的作品看起来像瓷砖而不是他们的照片。当我把标签设置为不透明的时候，我只是得到我的棋子的cookies版本，而不是其内部填充的一个。例如有没有办法只填写字符？如果没有，我想我会做一个精灵表，但我喜欢这个，因为我可以使用棋子的toString()方法的标签。码 import java.awt.*; import javax.swing.*; import java.util.Random; class ChessBoard { static Font font = new Font("Sans-Serif", Font.PLAIN, 50); static Random rnd = new Random(); public static void addUnicodeCharToContainer( String s, Container c, boolean randomColor) { JLabel l = new JLabel(s); l.setFont(font); […]

我怎样才能得到一个字符的Unicode代码点？: 我怎样才能提取一个给定的Character的Unicode代码点（S）没有先把它转换为一个String ？我知道我可以使用以下内容： let ch: Character = "A" let s = String(ch).unicodeScalars s[s.startIndex].value // returns 65 但似乎应该有一个更直接的方式来完成这个使用Swift的标准库。 “语言指南”部分中的“使用字符”和“Unicode”仅讨论迭代String中的String ，而不直接与Character s一起工作。

为什么在XML 1.0中“控制”字符是非法的？: 在XML 1.0中有很多不合法的字符，例如U+0007 （'bell'）和U+001B （'escape'）。大多数有趣的是非空白的“控制”字符。从（例如）这个问题和其他问题可以清楚地看到， XML规范是这个问题 – 但是谁能告诉我为什么 XML规范禁止这些字符？似乎可能需要将它们编码为转义 ，例如 和 分别，但也许有一个实际的原因，人物被禁止，而不是要求逃脱？回答者build议，避免传输控制字符有一些动机，但Unicode包含许多其他控制字符（考虑U+200C “零宽度非木工”）。我承认这种行为可能没有什么好的理由，但我仍然想更好地理解它。特别令人沮丧的是，当这些字符值出现在其他编码数据格式中时，我最终需要对需要对其进行编码的新XML文档进行“双重转义”。

如何找出Python是用UCS-2还是UCS-4编译？: 正如标题所说的那样。 $ ./configure –help | grep -i ucs –enable-unicode[=ucs[24]] search官方文档，我发现这个： sys.maxunicode ：为Unicode字符提供最大支持代码点的整数。它的值取决于configuration选项，该选项指定是否将Unicode字符存储为UCS-2或UCS-4。这里不清楚的是 – 哪个值对应于UCS-2和UCS-4。预计代码将在Python 2.6+上运行。

如何从PDF文档中提取文本？: 如何使用PHP从PDF文档中提取文本？（我不能使用其他工具，我没有root权限）我发现了一些纯文本function，但是它们不能很好地处理Unicode字符： http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

urllib2读取到Unicode: 我需要存储可以使用任何语言的网站的内容。我需要能够search内容的Unicodestring。我曾尝试过这样的事情： import urllib2 req = urllib2.urlopen('http://lenta.ru') content = req.read() 内容是一个字节stream，所以我可以search它的Unicodestring。我需要一些方法，当我urlopen ，然后阅读使用从标题的字符集解码的内容，并将其编码为UTF-8。

如何检查Python中的string是否是ASCII码？: 我想检查一个string是否是ASCII码。我知道ord() ，但是当我尝试ord('é') ，我有TypeError: ord() expected a character, but string of length 2 found 。我明白这是由我build立Python的方式（正如ord()的文档中所解释的）引起的。有另一种方法检查？

UnicodeDecodeErrorredirect到文件时: 我在Ubuntuterminal（编码设置为utf-8）中运行这个代码片断两次，一次使用./test.py ，然后使用./test.py >out.txt ： uni = u"\u001A\u0BC3\u1451\U0001D10C" print uni 没有redirect，它打印垃圾。 redirect，我得到一个UnicodeDecodeError。有人可以解释为什么我只在第二种情况下才会出现错误，或者甚至可以更好地详细解释两种情况下的幕后情况？