高等学校至今,对自己影响最大的十本书(下)

于是,便有了《追忆》。

实际的页面如下图:

多少人各有千秋,金庸武侠情节充分,情节曲折,情绪深厚,历史地理跨度之广,空前绝后;古龙堪称武侠奇才,天才的想象力,化繁为简而又新奇瑰丽的语言,再混合各样小说技艺,令人流连忘返。

爬取数据截图

六、《追忆似水年华》普鲁斯特


到这里基本可以领略,当当网的反爬确实不严酷,我居然还未曾安装Headers的音讯,竟然也足以爬取到想要的数据。但说到底在整机的代码中,仍旧把headers加上了,保险起见吧。

就医学样式而言,《战争与和平》,有荷马式的高屋建领,有司格特式的历史感觉,有伏尔泰的英明和卢梭的无畏,最终的尾声,会合成托尔斯泰特有的动感风范。

得手地拿到了类目标名号和链接:

怀左正在全力,也期待我们可以同步前行~


得到的xpath如下:

深者见深,浅者见浅。希望我们每一个寓目的人,都要虚心,同样一本书,你看到了洼地,旁人看到的,可能是天上。

爬回来的有些的链接

高中时,慕名而读,第一次,云山雾绕,完全不知所云。多年后再拿起,被马尔克斯绝妙的语言,天才的想象力还有其对社会变迁的深切见解圈粉。

from lxml import etree
import requests

url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-all-0-0-1-1'
data = requests.get(url).text
s = etree.HTML(data)
items = s.xpath('//*[@id="sortRanking"]/div')

for item in items:
    book_url=item.xpath('./a/@href')
    item_name=item.xpath('./a/text()')

    if len(book_url)>0:  #避免抓回来的链接是空的情况
        href=book_url[0]
        item_title=item_name[0]
        print(item_title)
        print(href)

左右买了两套《史记》,一部有注释,另一部,没有。我偏爱后者,因为其原汁原味。《史记》的地位无需多言,二十四史之首,史学圭臬,管医学典范,无数人,为之倾倒。

一共10000多行数据,对应不同世界的10000多本高评分的书本,当然会有一些再一次总括,比如小说和文艺,就有无数书是同时在这三个类目的。但是不管怎么说,都得到了数额。

这部书改变了自我的写作观,很三人认为没有太多生活经验,就写不出好作品,但困守病房的普鲁斯特,在简单的经历下,却写出了令世人叹为观止的《追忆》。


from lxml import etree
import requests
import time

url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-all-0-0-1-1'
data = requests.get(url).text
s = etree.HTML(data)
items = s.xpath('//*[@id="sortRanking"]/div')

for item in items:
    book_url=item.xpath('./a/@href')
    item_name=item.xpath('./a/text()')

    if len(book_url)>0:
        href=book_url[0]
        item_title=item_name[0]
        a=href[41:46]
        print(item_title)

        for page in range(1,26):
            per_url= 'http://bang.dangdang.com/books/fivestars/{}.00.00.00.00-all-0-0-1-{}'.format(a,page)
            print(per_url)

司马迁本着“究天人之际,通古今之变”的编写原则,采获古今,贯穿经传
,融昂扬向上的精神风貌,成就了《史记》雄深雅健、沉郁顿挫的篇章风格。

接下去就是去抓取不同页面的音讯,没有异步加载,所以一直用xpath定位就OK。当然中间有一对小地方需要注意的是,每本书所蕴涵的音讯是不同等的,所以用xpath去赢得的时候不自然能博取到,就会出错。

风起云涌的20世纪,西方各文艺流派,表现主义、达达主义、存在主义、意识流、象征主义等等,异彩纷呈。每个流派,都有其代表理论家和文学家,而《追忆》,标志着传统小说的完结和现代小说的起来,是当代小说和历史观随笔的冰峰。

于是构造出各类类目下都有25个页面的链接:

百年孤独,是一个家族的孤单,一个部族的孤独,也是一段历史的孤寂。书中的每个人物都用自己的生命,诠释了一种新鲜的独身,会合成了家门悲歌,从而显示了拉美的孤独悲怆。

本次作业接纳爬取的网站是当当网,一方面是因为传说相比较简单,另一方面也有相比较多的书籍数据,特别是五星图书,包含了各种领域最受欢迎的书本新闻,对于寻找有价值的图书、分析好书的部分情况有所一定的市值。

到前几天,《金庸》十五部随笔,我现在正读第三回,《古龙全集》,读到了第五遍,方今在看《楚留香》。本科毕业时,我的毕业杂谈,研商的是金庸小说中墨家文化的显示,答辩时,一通胡吹乱侃,老师没插上几句话,目瞪口呆,赶忙告诉我得以了结了。

翻页也非凡简单,只可是有一点点坑的是,爬回去的链接在代码中,需要对其翻页,就需要把链接构造出来。对重返来的链接举行解析,发现唯有是高中级有五个数字不同等。于是我把这一个数据取出来,在接连中传进去,这样能够协会通用的链接。

在此以前,每晚睡前,我都会读金庸古龙,我给自己限制一刻钟,读完就睡。但新兴自家发现自己太天真了,所以,不要问我怎么平常熬夜。

http://bang.dangdang.com/books/fivestars/01.03.00.00.00.00-all-0-0-1-1
http://bang.dangdang.com/books/fivestars/01.03.00.00.00.00-all-0-0-1-2
http://bang.dangdang.com/books/fivestars/01.03.00.00.00.00-all-0-0-1-3
…………………………

金庸笔下,飞雪连天射白鹿,笑书神侠倚碧鸳。

既是这样,其他的链接也得以通过这样的艺术来赢得,于是相比较了刹那间四个类目的xpath,很容易察觉规律。获取具有的类目链接如下:

实则经典小说,每每,常读常新,不同的阶段读,都有不一致的获取。所以我不屑于一些评头论足,说“某某随笔读过,没意思”,说“某某书讲的就是怎样故事,对生存并未帮忙”。

@DC学院《Python爬虫:入门+进阶》

读《追忆》,就像普鲁斯特的写法一样,断断续续,没有规则,想起来就读一读,想不起来,虽然了。这部鸿篇巨著,虽然每一日都读,也急需很久很久。

品味拿到各第一个类目标名号和链接

七、《金庸全集》、《古龙全集》


遵照稳定的老路,尝试拿到类目的题和页面链接:

八、《战争与和平》列夫·托尔斯泰

结构的翻页链接-中小学教辅

书中关系三个国家,描写了大气生人和战斗民族(Rose)的社会问题,描绘了一代人的成才和前进。内容广博,遍布整个北美洲,从伏尔加河到奥斯特里兹,众三人员接连出台,个个惟妙惟肖。

//*[@id="sortRanking"]/div[2]/a

因为篇幅有限,前几天只享受了五本书,其实就经济学著作来讲,我欣赏的有这个,五本十本,是一点一滴概括不了的。所以,挑几本有代表性,有思辨性,看完未来可以引起我们反思的书,来介绍一下。

于是,第一步就是要得到不同分类的页面链接,先以“小说”类目作为样例来测试一下,复制xpath音信并取得链接。

古龙走后,小李飞刀成绝响,人间不见楚留香。

完整的代码如下:

前几日所享用的五本,其实不外乎《百年孤独》以外,其他全是一体的书。这个书,有些改变了自我的构思,有些启发了本人的作文,有些给自家打开了新视野……

爬取的多寡如下:

十、《百年孤独》马尔克斯

为了抓各分类下的书籍音讯,首先看望点击各分类的时候,链接是否发生变化。经过测试,在不同的分类,链接都是不相同的,事实阐明不是JS加载。

普鲁斯特,是时刻的魔法师,是人命历程上的渔夫,他直接在收集着散落在时刻中的宝藏,重新排列组合,于是,他回顾了……

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from lxml import etree
import requests
import time

url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-all-0-0-1-1'

headers = {
            'Host': 'bang.dangdang.com',
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
        }

data = requests.get(url,headers=headers).text
s = etree.HTML(data)

with open('dangdang.csv','w') as outputfile:
    items = s.xpath('//*[@id="sortRanking"]/div')

    for item in items:
        book_url=item.xpath('./a/@href')
        item_name=item.xpath('./a/text()')

        if len(book_url)>0:
            href=book_url[0]
            item_title=item_name[0]
            a=href[41:46]
            print(item_title)

            for page in range(1,26):

                per_url= 'http://bang.dangdang.com/books/fivestars/{}.00.00.00.00-all-0-0-1-{}'.format(a,page)
                data2=requests.get(per_url).text
                f=etree.HTML(data2)

                try:
                    file=f.xpath('//ul[@class="bang_list clearfix bang_list_mode"]/li')
                    print('正在打印{}第{}页…………'.format(item_title,page))
                    time.sleep(2)

                    for book in file:
                        title=book.xpath('./div[@class="name"]/a/@title')[0]
                        author=book.xpath('string(./div[@class="publisher_info"][1])')
                        pinglun=book.xpath('./div[@class="star"]/a/text()')[0].strip('条评论')
                        wuxing=book.xpath('./div[@class="biaosheng"]/span/text()')[0].strip('次')
                        price_now=book.xpath('./div[@class="price"]/p/span[1]/text()')[0]
                        price_before=book.xpath('./div[@class="price"]/p/span[2]/text()')[0]
                        price_sale=book.xpath('./div[@class="price"]/p/span[3]/text()')[0]

                        try:
                            date=book.xpath('./div[@class="publisher_info"]/span/text()')[0]
                        except:
                            date='出版时间不详'

                        try:
                            company=book.xpath('./div[@class="publisher_info"][2]/a/text()')[0]
                        except:
                            company='出版社不详'

                        try:
                            price_e=book.xpath('./div[@class="price"]/p[@class="price_e"]/span/text()')[0]
                        except:
                            price_e="没有电子书"

                        outputfile.write('{},{},{},{},{},{},{},{},{},{}'.format(title,author,date,company,pinglun,wuxing,price_now,price_before,price_sale,price_e))

                except:
                    pass

他们武侠世界的建构,皆以中国传统文化为底蕴,借鉴西方小说文本的技巧与社团,从而成立出全新的豪侠观念和心绪。比如说,金庸随笔中,郭靖是“儒侠”,令狐冲代表“道”;萧峰身上呈现了“佛理”的自愿圆满。

这一次写爬虫,确实也是一遍相比系统地尝试,此前也没爬过如此多的多寡。自知技术来不够得到完美作业和嘉奖,可是分外喜形于色能从中得到进步,大神们见笑了。

本身间接觉得,《战争与和平》是一部堪称伟大的小说,气势磅礴,包罗万象,具有史诗般的特质。

接下去就是个别爬取每个分类下的图书音讯,以“小说”为例,其实翻页特别简单,给多少个相比如下:

司马迁的动感,与孟子最为接近,尚义饱满是互相的一直契合点。司马迁对汉家君主及政治尖锐泼辣的批判,是孟子“草芥”、“寇仇”、“民贵君轻”、“说父母当藐之”思想的具体化。正是从尚义重气上,司马迁秉承了孟子的精神。

复制”小说”类目的xpath信息

自身了然了,本来,经验也有深浅之分,格调,其实与陋室无关。

当当网本身没有怎么反爬机制,所以爬取也相比较顺利。唯一的小麻烦就是抓回去的链接继续翻页和里面有些图书中有的音讯缺失的处理。当然,这多少个对于有些有点经历的同校来说都不是什么事。

她说:“我有过一个神话般的童年。一些有所想象力和迷信的人围绕着本人。我在世在一个使人着魔的、奇异的、充满幽灵的世界中。”他早年喜欢卡夫卡,艺术传统,深受卡夫卡的震慑。

当当网五星图书页面

1982年,马尔克斯因为《百年孤独》获Noble(Bell)文学奖:“他创造了一个特此外圈子,那多少个由他虚构出来的小镇。……这里聚集了难以想象的偶发和最纯粹的现实生活。作者的想象力在跑马翱翔:荒诞不经的传说,具体的村镇生活,比拟和照耀、细腻的风景描写,都像信息报道一样准确地复出出来。”


自我想爬取的多少是各分类(散文、中小学教辅、农学、成功/励志……)上边的五星图书音讯(书名、评论数、作者、出版社、出版时间、五星评分次数、价格、电子书价格之类)。

这大概,就是人生的魅力吧。

爬取数据截图

偶然也想,人生而一身,大家走在追梦的中途,但也许,我们的天命早已经被决定。人类,或许就生活在生活的激流中,永远不知尽头。

废话不多说,先上准备爬取的页面链接:
http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-all-0-0-1-1

九、《史记》司马迁

报名了DC学员的爬虫课程,断断续续学了五个礼拜,才看完第一章。即便技术还很菜,但局部焦点的东西可以爬取了,也想趁本次作业,来品尝一下这段时间学习的学问。

她因为经验的罕见,所以个此外阅历变得要命宝贵;他不拥有经验的广度,却有所经验的吃水。

from lxml import etree
import requests

url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-all-0-0-1-1'
data = requests.get(url).text
s = etree.HTML(data)

title = s.xpath('//*[@id="sortRanking"]/div[2]/a/text()')
href = s.xpath('//*[@id="sortRanking"]/div[2]/a/@href')

print(title)
print(href)

至于转载问题:请统一简信联系自己的经纪人加油小毛虫

对于翻页的数据,粗略地看了一下逐个类目标最大页数,最多的是25页,当然也有零星25页的。

因为高中和本科看了众多教育学小说,所以现在系统学开理论之后,重要精力放在了教育学理论和历史学方面,随笔读的少了。但理解一些答辩之后,再回顾文章,视野,想法,所拿到的,和前面是全然不均等的。

布局的翻页链接-小说

读这部书,你不能抗拒书中描写的人生困惑,也只可以认同,在历史变动面前,人类自己,是何其渺小。

综观全书,《史记》完全是一部有血有肉有灵魂的生命体,满含作者的爱与血泪,当得起“史家之绝唱,无韵之《九章》”的美誉。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图