岗位职责:
1. 负责搭建或维护爬虫系统;
2. 负责数据的抓取、解析、清洗、入库;
3. 持续优化系统,提高系统的稳定性;
4. 设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
5. 负责解决项目相关的开发需求以及Bug修正,相关的问题的沟通协调工作。
岗位要求:
1. 计算机相关专业,具备2年及以上python开发经验,熟练使用多线程,熟悉面向对象编程;
2. 掌握网络爬虫开发原理,对互联网各种类型数据交互模式熟悉,知道如何处理需登录网站、动态网页等各种情况下的数据采集方法。
3. 熟悉破解 各种图形验证码,语音验证码,谷歌ReCaptcha验证等等反爬技术。
4. 精通html语言,熟悉开源工具,熟悉基于正则表达式、XPath等的信息抽取技术。
5. 熟悉至少一种关系型数据库(Mysql等),熟悉Nosql(如Mongodb)等技术优先。
6.熟悉手机app抓包,了解逆向框架
7. 工作积极主动、严谨负责。学习能力强,有一定的技术狂热。愿意学习和接受新知识和技术, 分享自己成果,与同事友好相处。