Python采集二手车数据,看看有啥 “ 属于 ” 自己的车
前言
嗨喽,大家好呀~这里是爱看美女的茜茜呐
			
 
		
对于许多想要了解购买或者置换新车的人来说~
能及时了解车子的行情自然是十分重要的。
那么今天就来给大家用python采集一下二手车数据
			
 
		
素材、视频、代码、插件安装教程我都准备好了,直接在文末名片自取就可点击此处跳转
本次亮点 :
1、系统分析目标网页
2、html标签数据解析方法
3、海量数据一键保存
环境介绍 :
- 
				
python 3.8
 - 
				
pycharm 2022.3专业版
 - 
				
requests >>> pip install requests
 - 
				
parsel >>> pip install parsel
 
代码实现步骤:
- 
				
发送请求
 - 
				
获取数据
 - 
				
解析数据
 - 
				
保存数据
 
代码展示:
导入模块
import parsel
import requests
		加入伪装
headers = {
    'Host': '****.com',
    'Referer': 'https://****.com/china/a0_0msdgscncgpi1ltocsp100exx0/?pvareaid=102179',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',
}
def get_proxies():
    url = 'http://***.com/getip?secret=pdozxje3vveh2uvj&num=1&type=json&port=1&time=3&mr=1&sign=c651882369b0fffa9a01aeef9ae275b1'
    json_data = requests.get(url).json()
    data = json_data['data'][0]
    proxies = {
        'http://': f'http://{data["ip"]}:{data["port"]}',
        'https://': f'http://{data["ip"]}:{data["port"]}'
    }
    return proxies
		发送请求 请求列表页面
for page in range(1, 101):
    url = f'https://***.com/china/a0_0msdgscncgpi1ltocsp{page}exx0/'
    response = requests.get(url=url, headers=headers, proxies=get_proxies()) 
		
			获取数据 
		
html_data = response.text
解析数据
    select = parsel.Selector(html_data)
    detail_url_list = select.xpath("//ul[@class='viewlist_ul']/li/a[@class='carinfo']/@href").getall()
    for detail_url in detail_url_list[:-1]:
        if detail_url[1] == '/':
            detail_url = 'https:' + detail_url
        else:
            detail_url = 'https://*****.com' + detail_url
        detail_html = requests.get(detail_url, headers=headers, proxies=get_proxies()).text
        detail_select = parsel.Selector(detail_html)
        title = detail_select.xpath("string(//h3[@class='car-brand-name'])").get("").strip()
        licheng = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[1]/h4/text()").get("").strip()
        shangpai = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[2]/h4/text()").get("").strip()
        pailiang = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[3]/h4/text()").get("").strip()
        suozaidi = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[4]/h4/text()").get("").strip()
        guobiao = detail_select.xpath("//ul[@class='brand-unit-item fn-clear']/li[5]/h4/text()").get("").strip()
        price = detail_select.xpath("string(//span[@id='overlayPrice'])").get("").strip()
        print(title, licheng, shangpai, pailiang, suozaidi, guobiao, price, detail_url)
		
			  
		
		尾语
感谢你观看我的文章呐~本次航班到这里就结束啦 ??
希望本篇文章有对你带来帮助 ??,有学习到一点知识~
躲起来的星星??也在努力发光,你也要努力加油(让我们一起努力叭)。
			
 
		
			文章知识点与官方知识档案匹配,可进一步学习相关知识
		
		
				Python入门技能树预备知识常用开发工具255565 人正在系统学习中 
			
		
 
			
				源码/素材/解答/资源/交流点击 
				
					
 QQ群名片 
				
			
 QQ群名片 
				
 
		本站大部分文章、数据、图片均来自互联网,一切版权均归源网站或源作者所有。
如果侵犯了您的权益请来信告知我们删除。邮箱:1451803763@qq.com
				
				
						
					