Tag: beautifulsoup

如何在窗口上安装python 2.7美丽的汤4

我有Python 2.7的Windows Vista。 我想安装BeautifulSoup 4,但显然我不能通过将文件复制到site-packages目录来安装Beautiful Soup。 我必须安装pip,然后从命令提示符运行一些命令。 你能一步一步引导我吗? 我真的是一个小菜,所以使它非常简单。 提前致谢

Python / BeautifulSoup – 如何从元素中删除所有标签?

我怎样才能从BeautifulSoup中find的元素中去掉所有的标签?

屏幕抓取:绕过“HTTP错误403:robots.txt不允许的请求”

有没有办法解决以下问题? httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 是唯一的方法来联系网站所有者(barnesandnoble.com)..我build立一个网站,将带来更多的销售,不知道为什么他们会拒绝访问在一定的深度。 我在Python2.6上使用mechanize和BeautifulSoup。 希望有一个解决办法

TypeError:需要类似字节的对象,而不是python和CSV中的“str”

TypeError:需要类似字节的对象,而不是“str” 在执行下面的python代码的时候会出现以上的错误,以保存Csv文件中的HTML表格数据。 不知道如何获得rideup.pls帮助我。 import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row in table.findAll('tr')[1:]: list_of_cells=[] for cell in row.findAll('td'): list_of_cells.append(cell.text) list_of_rows.append(list_of_cells) outfile=open('./immates.csv','wb') writer=csv.writer(outfile) writer.writerow(["SNo", "States", "Dist", "Population"]) writer.writerows(list_of_rows) 在最后一行之上。

Python:BeautifulSoup – 根据name属性获取属性值

我想打印一个属性值,根据它的名字,例如 <META NAME="City" content="Austin"> 我想要做这样的事情 soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] 上面的代码给了一个KeyError: 'name' ,我相信这是因为BeatifulSoup使用的名字,所以它不能被用作关键字参数。

在pythonparsingHTML – lxml或BeautifulSoup? 哪种更适合哪种用途?

从我可以做出来的,Python中的两个主要的HTMLparsing库是lxml和BeautifulSoup。 我select了BeautifulSoup作为我正在开发的一个项目,但是除了find语法更容易学习和理解外,我没有特别的理由select它。 但是我看到很多人都赞成lxml,我听说lxml更快。 所以我想知道一个在另一个的优点是什么? 我什么时候想要使用lxml,何时使用BeautifulSoup会更好? 还有其他的图书馆值得考虑吗?

ImportError:没有名为BeautifulSoup的模块

我已经使用easy_install安装了BeautifulSoup并尝试运行以下脚本 from BeautifulSoup import BeautifulSoup import re doc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.', '<p id="secondpara" align="blah">This is paragraph <b>two</b>.', '</html>'] soup = BeautifulSoup(''.join(doc)) print soup.prettify() 但不知道为什么发生这种情况 Traceback (most recent call last): File "C:\Python27\reading and writing xml file from web1.py", line 49, in <module> from BeautifulSoup import BeautifulSoup ImportError: No module named […]

ImportError:没有模块命名为bs4(BeautifulSoup)

我正在使用Python并使用Flask。 当我在我的计算机上运行我的主Python文件时,它完美的工作,但是当我激活Venv并在terminal中运行Flask Python文件时,它说我的主Python文件有“No Module Names bs4”。 任何意见或build议,不胜感激。

BeautifulSoup和Scrapy爬虫之间的区别?

我想做一个网站,显示亚马逊和电子海湾产品价格之间的比较。 哪个更好,为什么? 我对BeautifulSoup有点熟悉,但与Scrapy爬虫不太一样 。

美丽的汤,提取一个div和其内容的ID

soup.find("tagName", { "id" : "articlebody" }) 为什么这不返回<div id="articlebody"> … </div>标签和之间的东西? 它什么都不返回。 而且我知道这个事实存在,因为我正在盯着它 soup.prettify() soup.find("div", { "id" : "articlebody" })也不起作用。 编辑:这个post没有答案 – 我如何删除它? 我发现BeautifulSoup不能正确parsing,这可能实际上意味着我试图parsing的页面没有正确格式化在SGML或任何。