職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
崗位職責
1. 負責設計、開發和維護高效、穩定的爬蟲系統,滿足公司各類數據采集需求,涵蓋市場數據、行業動態、競品信息等;
2. 綜合運用Python、Java、Node.js等編程語言進行爬蟲程序開發,根據不同網站的結構和反爬策略,選擇合適的技術方案,確保代碼具備良好的質量、性能和可擴展性;
3. 深入分析網頁結構,熟練運用HTML、CSS、JavaScript知識,精準解析和提取目標數據,處理復雜的動態網頁內容,如AJAX加載、JavaScript渲染數據等;
4. 與數據分析師、算法工程師等團隊緊密協作,理解數據需求,提供精準、完整的數據抓取解決方案,保障數據的準確性和及時性,為公司的業務決策和算法訓練提供有力支持;
5. 實時監控爬蟲運行狀態,及時發現并解決性能瓶頸、數據丟失、反爬限制等問題,通過優化代碼、調整抓取策略等方式,持續提升爬蟲的抓取效率和穩定性;
6. 研究并應對各類反爬機制,如IP封鎖、驗證碼識別、用戶行為檢測等,運用代理池、驗證碼識別技術、模擬用戶行為等手段,實現有效的反反爬策略,確保爬蟲能夠穩定運行;
7. 定期維護和更新現有爬蟲系統,根據網站結構變化和業務需求調整,及時優化抓取邏輯,保證數據的持續獲取和有效性;
8. 編寫詳細、規范的技術文檔,記錄爬蟲系統的設計架構、開發流程、關鍵代碼邏輯以及維護要點,方便團隊成員進行技術交流和后續維護。
任職要求
1、計算機科學、軟件工程、數學等相關專業本科及以上學歷;
2、4年以上爬蟲開發工作經驗,具備多個完整爬蟲項目的開發和維護經驗;
3、有過處理反爬策略的成功案例,如繞過驗證碼、突破IP封鎖等,能夠分享有效的反反爬經驗和技術手段;
4、熟練掌握Python、Java、Node.js中至少兩種編程語言;精通HTML、CSS、JavaScript;熟悉HTTP/HTTPS協議;擁有數據庫使用經驗,熟練掌握SQL(如MySQL、Oracle)和NoSQL(如MongoDB、Redis)數據庫的基本操作,能夠設計合理的數據存儲結構;熟悉分布式爬蟲技術,如Scrapy - Redis等框架,能夠構建大規模、高性能的分布式爬蟲系統,提升數據采集效率;
5、具備較強的問題分析和解決能力,能夠快速定位和解決爬蟲開發過程中遇到的各種技術難題,如數據抓取異常、性能優化等,善于通過調試工具和技術手段進行問題排查;
6、對新技術保持敏銳的學習熱情和好奇心,能夠快速掌握并應用新的爬蟲技術和工具,適應不斷變化的技術環境和業務需求。
工作地點
地址:南昌南昌縣南昌-高新區江西濟民可信集團有限公司(總部)


職位發布者
HR
江西濟民可信集團有限公司

-
制藥·生物工程
-
1000人以上
-
私營·民營企業
-
高新開發區高新七路888號