Tag: utf 8

Python和BeautifulSoup编码问题

我正在使用BeautifulSoup用Python编写一个爬虫程序,并且一切都很顺利,直到我跑进这个网站: http://www.elnorte.ec/ 我正在获取请求库的内容: r = requests.get('http://www.elnorte.ec/') content = r.content 如果我在这一点做了一个内容variables的打印,所有的西class牙特殊字符似乎工作正常。 但是,一旦我尝试将内容variables提供给BeautifulSoup,它就会变得混乱: soup = BeautifulSoup(content) print(soup) … <a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&amp;month=08&amp;day=27&amp;modid=203" title="1009 artÃculos en este dÃa"> … 这显然是在捣毁所有西class牙特色字符(口音和什么)。 我试过做content.decode('utf-8'),content.decode('latin-1'),也试着把fromEncoding参数搞乱到BeautifulSoup,把它设置成fromEncoding ='utf-8'和fromEncoding ='拉丁-1',但仍然没有骰子。 任何指针将不胜感激。

如何在PHP中迭代UTF-8string?

如何迭代一个UTF-8string字符使用索引? 使用括号操作符$str[0]访问UTF-8string时,utf编码的字符由2个或更多元素组成。 例如: $str = "Kąt"; $str[0] = "K"; $str[1] = " "; $str[2] = " "; $str[3] = "t"; 但我想有: $str[0] = "K"; $str[1] = "ą"; $str[2] = "t"; 这可能与mb_substr但这是非常缓慢的,即。 mb_substr($str, 0, 1) = "K" mb_substr($str, 1, 1) = "ą" mb_substr($str, 2, 1) = "t" 有没有另一种方法来整合string字符而不使用mb_substr ?

MySQL VARCHAR长度和UTF-8

在MySQL中,如果我在UTF-8表中创build一个新的VARCHAR(32)字段,这是否意味着我可以在该字段中存储32个字节的数据或32个字符(多字节)?

Url在Python中解码UTF-8

就我在Python中的新手而言,我花了很多时间。 我怎么能解码这样一个url: example.com?title=%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B7%D0%B0%D1%89%D0%B8%D1%82%D0%B0 到python 2.7中的这个: example.com?title==правовая+защита url=urllib.unquote(url.encode("utf8"))正在返回一些非常难看的东西。 仍然没有解决办法,任何帮助表示赞赏。

i18n在JSF 2.0应用程序中使用UTF-8编码的属性文件

我正在使用jsf-ri 2.0.3,需要希伯来文和俄文的支持。 问题是我在屏幕上看到的是乱码而不是正确的文本。 首先,我为每种语言定义了捆绑包(* _locale.properties)。 这些文件采用UTF-8编码。 其次,我已经在faces-config.xml中定义了默认和支持的语言环境 <locale-config> <default-locale>iw</default-locale> <supported-locale>en</supported-locale> <supported-locale>ru</supported-locale> </locale-config> 比我添加了一个自定义filter,将设置响应字符编码为UTF-8。 <filter> <filter-name>encodingFilter</filter-name> <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class> <init-param> <param-name>encoding</param-name> <param-value>UTF-8</param-value> </init-param> <init-param> <param-name>forceEncoding</param-name> <param-value>true</param-value> </init-param> </filter> <filter-mapping> <filter-name>encodingFilter</filter-name> <url-pattern>/*</url-pattern> </filter-mapping> 最后,当我创build一个简单的XHTML来debugging输出,我看到了一个非常奇怪的结果 <f:loadBundle basename="i18n.frontend.homepage" var="msg"/> <strong>i18n: </strong><h:outputText value="#{msg.language}"/> <br/> <strong>Locale: </strong> <h:outputText value="#{facesContext.externalContext.response.locale}"/> <br/> <strong>Encoding: </strong> <h:outputText value="#{facesContext.externalContext.response.characterEncoding}"/> 结果是: i18n: ×¢×ר×ת Locale: en_US Encoding: UTF-8 我的configuration有什么问题?

如何在Windows下的cmd窗口中显示日语汉字?

我有一个英文的Windows 2003服务器,激活了亚洲语言支持。 命令窗口中可用的两种字体(cmd设置)是光栅和lucida控制台。 没有一个或另一个正确显示汉字(显示为问号)。 有没有解决scheme让他们显示? 在写出控制台之前,我的应用程序中是否有一些转变? 我现在正在编写UTF8,对于一些非ASCII字符(如öäüß)也适用。 写入控制台的源代码具有正确的数据(日文汉字可以在debugging器中正确查看)。 如果有问题,我正在用C#编写应用程序。 编辑:我发现这个链接 ,它解释了问题背后的问题,并提出了C#解决scheme(涉及本地调用)。 这应该适用于.NET 4.5(我未经testing)

utf8和latin1的区别

utf8和latin1有什么区别?

Unicode和UTF-8有什么区别?

考虑: unicode=utf16是真的吗? 许多人认为Unicode是一种标准,而不是一种编码,但大多数编辑器实际上支持保存为Unicode 编码 。

utf-8字边界正则expression式在javascript中

在JavaScript中: "ab abc cab ab ab".replace(/\bab\b/g, "AB"); 正确给我: "AB abc cab AB AB" 当我使用utf-8字符时: "αβ αβγ γαβ αβ αβ".replace(/\bαβ\b/g, "AB"); 字边界算子似乎不工作: "αβ αβγ γαβ αβ αβ" 有没有解决这个问题?

如何使记事本保存在没有BOM的UTF-8文本?

我有一个特殊口音的CSV文件,并通过selectUTF-8编码将它保存在记事本中。 当我使用Java读取文件时,它也读取BOM字符。 所以我想用UTF-8格式保存这个文件,而不是最初在记事本中附加BOM。 否则在Java中有没有内置的类,在读取文件中的内容时消除了开始时出现的BOM字符?