来自 威尼斯国际官方网站 2019-10-09 23:24 的文章
当前位置: 威尼斯国际官方网站 > 威尼斯国际官方网站 > 正文

python爬虫入门,通过Python完毕三个文书档案的自

需求出现/使用场景:

  因为公司需要将word办的接口文档在线化,看起来是个很好的事情,但是就是苦逼了我们这些干活的,其中工程量最大的就是参数的录入,要是参数少也罢,有的接口动辄三四十个参数,更甚八九十个,我手动复制了一个三四十个的就让我怀疑人生,我觉的我的人生不能在赋值接口参数中浪费掉。以前也学过一点python知识,也实践过通过selenium来模拟点击,所以就萌发了一个读取文件然后通过selenium来进行表单的填充和提交,完成工具以后会节省大约80%的工作量。 大大提高了效率,也减少了对手腕的伤害。

  下面是参数录入界面,可以知道点击以后一个个粘贴需要费多大的力气。

图片 1


实现过程:

  下面介绍一下实现过程及思路,因为要复制word中的内容,但是在word中的格式不是统一的, 所以要进行人为的将接口复制到文本文档中,并且要做相应的格式处理,所以这个工具归属于半自动化。

效果展示动图

  1.读取文件

    首先要通过python进行文件的读取,不得不说python的语法是真的简简洁,读取文件一行代码的事,然后剩下的就是根据某个标识符,对每一行数据进行处理存储。  下列是读取文件代码示例:

    f = open("C:\Users\Administrator\Desktop\api.txt", 'r', encoding='UTF-8')
    list = f.readlines()

需求:
博主之前有一段时间突然不想玩微博了,然后正好表弟想玩,就给他用了,手机绑定也换成了他的号码。近期突然又想要玩,就重新开了个号。新号微博空空的,也没有什么关注。于是就产生了两个需求,正好可以借这个机会学习一下自动化测试工具webdriver的基本使用:
1、将原微博的博文搬到新账号
2、用新账号关注原微博的所有关注

  2.开始使用selenium

    selenium可以支持火狐、IE、谷歌,使用的时候都需要先下载对应的浏览器驱动,这里我选择谷歌。首先去下载浏览器驱动,    在这个网址下载 ,同时,贴出Chrome浏览器版本和与之对应的驱动,参考网址 

图片 2

    下载完以后还需要进行配置, 一是需要去环境变量配置,在上面网址中有介绍,二是直接指定路径,我使用的是第二种方法,比较方便,不要忘记导入对应的模块

    browser = webdriver.Chrome(executable_path=".chromedriver.exe")

 

    selenium的基本操作,这里只介绍一些这个代码中使用到的,更多API百度一下非常多:

    browser.get("https://baidu.com")    // 访问网址
    obj = browser.find_element_by_id("ks_ka_api_id")   // 通过id查找元素
    obj1 = browser.find_element_by_xpath('//*[@id="test_form"]/input[5]') // 通过xpath查找元素
    obj2 = find_elements_by_tag_name("p") // 通过Dom来查找元素

    obj2.send_keys();    // 填充数据
    obj.click()    // 点击按钮

    在自动话的过程中使用到了下拉框的选择,通过查找可以通过一下代码来实现指定选中,其他的方法可以通过网上教程来了解:

    f_selet = Select(browser.find_element_by_id("ks_ka_id"))   // 下拉框对象
    f_selet.select_by_visible_text(select_text)   // 选中哪个文本

说明:
本篇主要叙述第一个需求的实现,第二个需求的实现参见python爬虫入门 实战(六)---用webdriver实现微博批量自动关注。

总结:     

  到现在为止基本核心部分的思路就完成了,然后对代码进行修饰,添加日志和异常处理,代码就完成了,贴出完成代码。  这个程序也不是特别复杂, 不过可以对有遇到类似场景的提供一个减少自己工作量的思路。从这里还是可以看出这种繁杂并且重复的劳动还是可以通过代码来编写一些自动化工具的平时多思考,这种时候就会让自己的工作量减少许多,做出了这个软件一方面是减少工作量,另一方面也是进行了python的学习,一举两得。

  同时我们不可能每次运行这个程序都是通过ide来运行,最好的方式是打成exe,需要的时候只需要双击一下。  如果有需要进行打包功能的同学可以看下一篇文章: 

图片 3View Code

 

涉及:
1、request的基本使用
2、json解析
3、用request下载图片并保存到本地
4、用webdriver登录并发送微博
5、用autoIT解决非input型的文件上传

本篇目录:
1.思路
2.爬取原微博
3.用webdriver启动浏览器登录微博
4.用webdriver发布带图片的微博
5.完整代码
6.效果展示动图
7.参考


图1.封面而已

本文由威尼斯国际官方网站发布于威尼斯国际官方网站,转载请注明出处:python爬虫入门,通过Python完毕三个文书档案的自

关键词: