Python入门学习:网络刷博器爬虫

分类:CentOS运维 阅读:83563 次

最近两天开始学习Python,由于过去主要使用C,对Python的简洁易用感到很新奇,大大增加了学习的兴趣。

从今天开始记录Python的学习历程和笔记。一方面方便自己未来查阅,另一方面与大家共享学习。

简单浏览了一下Python的简单语法后,我上网找了一些资料。在查找的过程中,看到了一个由智普教育制作的Python学习视频,视频有一段名字叫做”网络刷博器爬虫“吸引了我的注意。

网络刷博器爬虫的基本原理:一些博客网站打开某博客,该博客访问量就加一,如果多次循环打开同一博客,该博客的访问量就会大量上升。

程序需要用到第三方函数库模块:httplib2

函数库的下载地址:https://code.google.com/p/httplib2/

使用前需要配置系统环境变量,在系统环境变量Path后添加python安装目录。进入httplib2模块的解压目录,运行settup.py安装即可

打开一个网页的代码为:

  1. webbrowser.open_new_tab('网址')
有于打开一定数量的网页后,内存会增加,我们需要定时关掉浏览器,关掉浏览器的代码如下(关掉Chrome为例):
  1. os.system('taskkill/F/IMchrome.exe')

同时要使用到while循环来循环操作,达到刷博客的目的。具体的代码仿照了智普教育学习视频,感谢智普教育,完整的代码如下:
  1. importwebbrowserasweb
  2. importtime
  3. importos
  4. importrandom
  5. count=random.randint(5,7)
  6. j=0
  7. whilej<=count:
  8. i=0
  9. whilei<=8:
  10. web.open_new_tab('网址')#网址自己填入
  11. i=i+1
  12. time.sleep(0.8)
  13. else:
  14. os.system('taskkill/F/IMchrome.exe')
  15. printj,'timewebbrowerclosed'
  16. j=j+1