Tag: beautifulsoup

如何在窗口上安装python 2.7美丽的汤4: 我有Python 2.7的Windows Vista。我想安装BeautifulSoup 4，但显然我不能通过将文件复制到site-packages目录来安装Beautiful Soup。我必须安装pip，然后从命令提示符运行一些命令。你能一步一步引导我吗？我真的是一个小菜，所以使它非常简单。提前致谢

Python / BeautifulSoup – 如何从元素中删除所有标签？: 我怎样才能从BeautifulSoup中find的元素中去掉所有的标签？

屏幕抓取：绕过“HTTP错误403：robots.txt不允许的请求”: 有没有办法解决以下问题？ httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 是唯一的方法来联系网站所有者（barnesandnoble.com）..我build立一个网站，将带来更多的销售，不知道为什么他们会拒绝访问在一定的深度。我在Python2.6上使用mechanize和BeautifulSoup。希望有一个解决办法

TypeError：需要类似字节的对象，而不是python和CSV中的“str”: TypeError：需要类似字节的对象，而不是“str” 在执行下面的python代码的时候会出现以上的错误，以保存Csv文件中的HTML表格数据。不知道如何获得rideup.pls帮助我。 import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row in table.findAll('tr')[1:]: list_of_cells=[] for cell in row.findAll('td'): list_of_cells.append(cell.text) list_of_rows.append(list_of_cells) outfile=open('./immates.csv','wb') writer=csv.writer(outfile) writer.writerow(["SNo", "States", "Dist", "Population"]) writer.writerows(list_of_rows) 在最后一行之上。

Python：BeautifulSoup – 根据name属性获取属性值: 我想打印一个属性值，根据它的名字，例如 <META NAME="City" content="Austin"> 我想要做这样的事情 soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] 上面的代码给了一个KeyError: 'name' ，我相信这是因为BeatifulSoup使用的名字，所以它不能被用作关键字参数。

在pythonparsingHTML – lxml或BeautifulSoup？哪种更适合哪种用途？: 从我可以做出来的，Python中的两个主要的HTMLparsing库是lxml和BeautifulSoup。我select了BeautifulSoup作为我正在开发的一个项目，但是除了find语法更容易学习和理解外，我没有特别的理由select它。但是我看到很多人都赞成lxml，我听说lxml更快。所以我想知道一个在另一个的优点是什么？我什么时候想要使用lxml，何时使用BeautifulSoup会更好？还有其他的图书馆值得考虑吗？

ImportError：没有名为BeautifulSoup的模块: 我已经使用easy_install安装了BeautifulSoup并尝试运行以下脚本 from BeautifulSoup import BeautifulSoup import re doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.', '<p id="secondpara" align="blah">This is paragraph <b>two</b>.', '</html>'] soup = BeautifulSoup(''.join(doc)) print soup.prettify() 但不知道为什么发生这种情况 Traceback (most recent call last): File "C:\Python27\reading and writing xml file from web1.py", line 49, in <module> from BeautifulSoup import BeautifulSoup ImportError: No module named […]

ImportError：没有模块命名为bs4（BeautifulSoup）: 我正在使用Python并使用Flask。当我在我的计算机上运行我的主Python文件时，它完美的工作，但是当我激活Venv并在terminal中运行Flask Python文件时，它说我的主Python文件有“No Module Names bs4”。任何意见或build议，不胜感激。

BeautifulSoup和Scrapy爬虫之间的区别？: 我想做一个网站，显示亚马逊和电子海湾产品价格之间的比较。哪个更好，为什么？我对BeautifulSoup有点熟悉，但与Scrapy爬虫不太一样。

美丽的汤，提取一个div和其内容的ID: soup.find("tagName", { "id" : "articlebody" }) 为什么这不返回<div id="articlebody"> … </div>标签和之间的东西？它什么都不返回。而且我知道这个事实存在，因为我正在盯着它 soup.prettify() soup.find("div", { "id" : "articlebody" })也不起作用。编辑：这个post没有答案 – 我如何删除它？我发现BeautifulSoup不能正确parsing，这可能实际上意味着我试图parsing的页面没有正确格式化在SGML或任何。