我遇到了一个面试问题“如果你正在devise一个networking爬虫,你将如何避免陷入无限循环?”我正试图回答这个问题。 它是如何从一开始就开始的。 说谷歌开始与一些中心网页说,成百上千(首先如何find这些中心网页是一个不同的子问题)。 由于谷歌页面等链接,是否继续制作一个哈希表,以确保它不跟随早先访问过的页面。 如果同一页面有两个名称(URL),如果在我们有URL缩写器等这些日子里说。 我以Google为例。 虽然谷歌不泄漏其networking爬虫algorithm和网页排名等工作,但任何猜测?
为许多页面显示页面导航的最佳方式是什么? (最初,这是作为一个方法提示,我的答案包括在问题中,现在我把答案分解到下面的“答案”部分)。 更具体地说: 假设您向用户显示一组logging,将其分解为固定大小的页面(例如,Googlesearch的结果)。 如果只有几页,则可以在结果的末尾显示一个页面导航区域,如下所示: [<<] [<] 1 2 3 4 5 6 7 8 9 10 11 12 13 [>] [>>] 但是,如果结果超过20或30页,这很快就会变得不正常。 有时你会看到这样的事情: [<<] [<] … 665 666 667 668 669 670 671 672 673 … [>] [>>] 或这个: [<<] [<] 1 2 3 … 667 668 669 670 671 … 845 846 847 […]