这两天遇到了一个使用fake useragent的问题,这里记录分享下解决方案给大家
首先由于新的爬虫项目里引进了随机生成agent的库文件,而调试过程中发现出现了引入前不曾有的解析错误,经过定位分析发现原来是随机生成的random ua中含有移动端的Mobile字段,导致目标网站响应的内容为手机移动端的内容和结构,由于采用的不是一套代码,因此爬虫的解析出现了错误,这里我们就需要对代码就行修改
这里我们有两种解决方案:
- 使用自定义的fake useragent列表,自己维护随机的内容,使用list列表存放自己想要随机的ua内容,这样可以避免引入移动端的ua
- 剔除fake useragent随机生成的ua,只保留不含有mobile字段的ua
由于fake useragent用的还挺好,因此采用第二套方案,简单修改下就可以了,下面是代码,有需要的可以参考下,比较简单