岗位职责:
1、负责爬虫系统的设计、开发与维护;
2、负责对爬取数据的信息提取、去重、清洗和规范化处理。
任职要求:
1、计算机相关专业3年以上工作经验,至少2年以上 Python 开发工作经验;
2、熟悉 HTML、JS、XPath、AJAX、HTTP协议等,了解浏览器的运行机制;
3、熟悉网页抓取原理及技术,精通正则表达式,可以从结构化的和非结构化的数据中提取信息,有Scrapy / Pyspider之一的使用经验;
4、了解常见的反爬策略,有一定的反爬经验;
5、有良好的逻辑思维能力、沟通能力、学习能力和团队合作精神。
加分项:
1、有大规模的爬虫开发经历,掌握各种爬虫技巧;
2、具有分布式、多线程的开发经验。