您现在的位置是: 首页 > 看车用车 看车用车
汽车测评数据分析怎么做的_汽车测评是什么意思
tamoadmin 2024-09-17 人已围观
简介1.中保研“复活”,皓影成绩实锤,数据分析这款车真的安全吗?2.利用数据诊断汽车故障利用大数据进行问题诊断3.数据分析方法4.汽车数据流分析之分析发动机转速5.汽车行业推广要怎么做数据分析?6.车联网数据分析(一):用户出行行为分析节气门开度是指发动机节气门的开度。汽车发动机的节气门由驾驶员通过加速踏板来操作,以改变发动机的进气,从而控制发动机的运转。不同的节气门开度标志着发动机不同的工作状态。如
1.中保研“复活”,皓影成绩实锤,数据分析这款车真的安全吗?
2.利用数据诊断汽车故障利用大数据进行问题诊断
3.数据分析方法
4.汽车数据流分析之分析发动机转速
5.汽车行业推广要怎么做数据分析?
6.车联网数据分析(一):用户出行行为分析
节气门开度是指发动机节气门的开度。汽车发动机的节气门由驾驶员通过加速踏板来操作,以改变发动机的进气,从而控制发动机的运转。不同的节气门开度标志着发动机不同的工作状态。如何用数据流分析节气门开度?请看下面节气门开度是一个数值参数,根据车型不同,其数值单位如下。如果单位是电压(V),取值范围是0~5v;如果单位是角度,数值范围是0~90度;如果单位是百分比(%),则取值范围为0~100%。该参数值表示发动机ECU接收到的节气门位置传感器的信号值。如果你读到的数据流是电压值,那就是最真实的数据。角度值和百分比是ECU根据电压值信号计算出的节气门开度。如果其绝对值小,说明节气门开度小;较大的绝对值表示节气门开度较大。数值分析时,检查节流阀全关时的参数数值。以电压为单位,节流阀全关时的参数值应低于0.5V;角度方面,节气门全关时的参数值应为0度;当节气门完全关闭时,该参数的值应以百分比表示为0。此外,检查节气门全开时的数值。由于油门拉线的调节松紧不同,各单元油门全开的数值应分别为4.5V左右;80度以上;95%以上。如果有任何异常,节气门位置传感器可能有故障或调整不当,或者可能在线路或ECU中有故障。线性节气门位置传感器输出与节气门开度成正比的电压信号,控制系统根据其输入的电压信号即负载来判断节气门开度,从而确定喷油量等控制。如果传感器的特性发生变化,即从线性输入变为非线性输出,传感器输出的电压信号在规定范围内,但不与节气门开度成正比变化,发动机工作不良,但故障指示灯不会亮起,当然也不会出现故障码。节气门位置传感器相当于一个电位器,使用时间长了碳膜会磨损,产生各种故障。1.碳膜磨损到一定时期,5V电压断在这里。油门开到位置传感器,没有电压信号输出,发动机会喘振甚至失速。2.节气门位置传感器的信号电压偏移。在全闭位置低于0.2V时,发动机不会怠速(相当于早期电喷车的怠速开关没有打开)。高于0.5V时,发动机会怠速过高。有些车,比如本田,会防止自动挡变速杆脱离P档。3.节气门位置传感器信号电压偏移,在全开位置低于4V时会造成发动机加速不良或微弱。4.节气门位置传感器损坏,没有信号电压反馈。有些车辆会启动,ECU会关闭燃油喷射。
中保研“复活”,皓影成绩实锤,数据分析这款车真的安全吗?
静态数据流是指当点火开关接通且发动机未起动时,故障诊断仪读取的发动机电子控制系统的数据。例如,进气压力传感器的静态数据应接近标准大气压;当汽车寒冷时,冷却液温度传感器的静态数据应接近环境温度。以下是使用“静态数据流”进行诊断的示例。
◆案例一:一辆 捷达 ( 查成交价 | 车型详解 )王轿车在入冬后的某个早晨无法启动。
首先,司机反映前几天早上起步很困难,有时候时间长了就能启动,启动后一切正常。
该车已在其他修理厂修理过,检查过发动机的燃油压力和缸压、喷油器、气门正时、点火正时和火花塞闪络,但问题一直没有解决。维修人员仔细复查了以上项目,没有发现问题。发动机不缺燃料和高压,但就是发动不起来。原因是什么?
后来发现火花塞虽然多次启动,但没有“水淹”的迹象,说明故障是冷启动时加浓不足造成的。如果冷启动浓缩不够,是什么原因造成的?冷却液温度传感器是否正常?
用故障诊断仪检查发动机电子控制单元,没有故障代码输出。通过读取汽车发动机的静态数据流,发现发动机ECU输出的冷却液温度为105℃,而发动机的实际温度仅为2~3℃。很明显,发动机ECU接收到的水温信号是错误的,说明冷却液温度传感器有问题。为了进一步确认,用万用表测量冷却液温度传感器和电脑之间的线束,既没有开路也没有短路,电脑给冷却液温度传感器的5V参考电压也正常,所以更换冷却液温度传感器,重新启动,正常,排除故障。
这个故障案例其实并不复杂。对于有经验的维护人员来说,可以直接从冷却液温度传感器中找到问题的症结所在。但这说明了一个问题,就是电控燃油喷射发动机系统的ECU并不会记忆一些故障,比如这款车的冷却液温度传感器既没有开路也没有短路,只是信号失真,所以ECU的自诊断功能不会认为是故障。
如复氧传感器反馈信号失真,空气体流量计检测到的进气量与空气体流量计电压信号漂移引起的实际进气量差异等。不能被电子控制单元识别为故障。
在这种情况下,读取控制单元数据成为解决问题的关键。 @2019
利用数据诊断汽车故障利用大数据进行问题诊断
沉寂半年之久的中保研终于“复活”了,2020年12月2日下午,中保研公布了2020年度新一批碰撞成绩,有别于以往单一车型公布,此次成绩一口气公布了5款车型,其中不乏包含此前泄露门主角本田?皓影,以及主驾驶气囊保护副驾驶的帕萨特,另外还有阿特兹、第二代哈弗H6以及领克03。角师傅将会围绕五款车型分别做几期碰撞解析,今天我们先拿差点让中保研“断气”的皓影开篇,看看广本皓影到底安不安全?
皓影已然成为国内碰撞试验中的主角,中保研半年沉寂便与它有关。因为中保研网站安全等级略差,皓影测试后的成绩页面被轻而易举的攻破并发到了网上,令中保研措手不及。随后中保研将皓影定性为数据被盗恶件。
有意思的是,此次公布的正式成绩看,参照之前泄露数据进行对比,并无区别,而此前中保研在声明中表示不对泄露出的数据成绩做任何法律责任,因此令人猜测数据50%是的,50%是真的。而此次正式成绩出炉,显然当初的成绩是真实的。
围绕中保研皓影碰撞测试中的几个疑点,其一为何25%小重叠偏置测试下A柱弯折明显,但车体结构评价给了A良好。从今天给到的成绩来看,皓影在A柱弯折的情况下,凭借SUV得天独厚的空间优势,乘员舱头部区域评价给到了A。另外,A柱弯折明显但防火墙侵入表现不错,腿部侵入评价拿到了G优秀。在没有侧气帘保护下,人伤害评价均得到了G优秀。因此,结合侧面碰撞,皓影是因为没有气帘保护才使得驾驶者头部评价得到了P差评价。
皓影在当初做了中保研测试,并且成绩泄露造就网上风波后,他们自主申请了中汽研C-NCAP测试,最终测试成绩当然毫无疑问的拿走了5星。从中汽研C-NCAP测试数据分析,皓影在正面40%偏置碰撞中,受车头纵梁保护,其得分拿下87.86%。同时在有安全气帘保护的情况下,侧面碰撞得分更是拿到了满分。
这对于皓影安全性进行了模糊处理,让消费者很难辨别其真的是否安全。单纯从两家碰撞机构给出的成绩来看,角师傅个人分析:皓影的车体结构设计没有问题,之所以在中保研出现部分成绩P差评价,主要原因在于被动防护不充分。同时,参考中汽研测试,当被动安全充分的情况下,车辆安全系数大幅提升。因此,广本认为皓影整体是安全的,产品没有任何问题。
让整个事情更加有趣的是,国内某汽车垂直媒体此前进行了车对车碰撞测试,选定的测试车辆是本田皓影与丰田威兰达,碰撞速度64公里每小时,碰撞范围为两款车车头50%区域。从碰撞后媒体解析来看,两款车撞击时产生的动能,大多数被皓影所吸收掉,其动能甚至波及到了车尾部分。
算上后续专业媒体的自测,皓影已经参加了三场碰撞测试,几乎涵盖了地球上已知碰撞测试中的所有标准,但表现出的成绩似乎有所差别,实验室理想状态下皓影的确很安全,人数据表现不错,但越趋向于真实场景,其所得到的数据偏差越明显。皓影存在极高的应试疑点。
写在最后:
皓影到底安不安全?中保研、中汽研测试到底准不准确?目前得到的成绩只能成为围绕在其头上的一朵疑云,如何“拨雾见天日,守得云开见月明”,只能靠消费者自己了,而角师傅甚至碰撞机构也仅仅是最大的参考值而已。对此大家有什么新的见解,欢迎在评论区中留言分享。
本文来源于汽车之家车家号作者,不代表汽车之家的观点立场。
数据分析方法
现在有些维修人员仍然是靠经验来判断故障的,但在汽车技术飞速发展的今天,这种方式往往会造成一些误判,使维修工作走弯路。当然维修经验在汽车维修过程中的重要作用不可否认,只是光靠经验还不够。维修人员要在掌握系统工作原理的基础上,利用数据分析方法,结合维修经验找到解决问题的关键点。这样做不仅能够得到事半功倍的效果,而且还能有效地避免走弯路所带来的损失。下面的故障案例是笔者在数据分析方面的实际体验。
故障现象:一辆2010年产尚酷1.4TSI轿车,搭载0AM 7挡手自一体干式直接换挡变速器,行驶里程4万km。用户反映该车在某一特定的行驶状态下,常会出现严重的抖动现象。在此之前,已更换过液压电子集成式变速器控制单元及双离合器总成,但问题并未解决。
检查分析:维修人员接车后路试。故障的规律是,在车速为30~50km/h,发动机转速为1700r/min时,如果欲使车辆适度地加速,立刻会感到从发动机舱内传来一阵剧烈的抖动。用故障诊断仪检测,发动机及变速器控制单元中无任何故障码。
就试车的感受而言,故障现象很像是手动挡车型离合器抖动的故障表现。根据直接换挡变速器的特点,其动力的传递离不开双离合器总成(图1)。而如果离合器压盘与离合器片之间的接合不平顺,势必像手动挡车型一样,在离合器接合的过渡阶段使车辆产生抖动。该车的双离合器总成用的是干式离合器,而干式离合器抖动的原因主要有2个:一是离合器摩擦片与压盘之间的摩擦系数不均匀,在一定的接合压力下,其摩擦力是跳动的;另一个是离合器的接合压力不稳定,如果接合压力不是平滑过渡而是跳动的,那么也会导致动力传递的抖动。离合器接合压力是由液压控制单元控制的(图2),如果控制油压不稳定,很可能会影响离合器的接合压力。
通过以上的分析,问题再次指向了双离合器总成和变速器控制单元。那么,是上次更换的零件仍然存在问题吗?这种可能性不能排除。除了再次更换这些零件外,是否还有其他手段能够排除零件存在问题的可能性呢?经过慎重考虑后,维修人员放弃了再次更换零件的想法,决定先从数据上找出答案。
离合器的抖动,从本质上讲是其主动轮与被动轮之间转速传递关系的不规则性。如果车辆抖动的确是由离合器接合抖动所产生的,这必然会反从变速器的输入轴转速和输出轴转速中反映出来。出于这样的考虑,维修人员连接故障诊断仪路试。
由路试确认,故障是出现在2挡行驶状态下。回放故障出现时的数据流(图3),将试车过程与数据进行对比,故障出现在1挡升2挡后,第一次松开加速踏板前。且故障出现的时段更靠近第一次松开加速踏板的时刻。由图可见,在故障出现的时段内,变速器的输出轴和输入轴转速的变化都是很平滑的,其实际转速与目标转速也完全重叠,而且故障也并非出现在变速器的换挡过程中。这样看来,故障与双离合器的接合过程毫无关系,由此可以排除双离合器总成及变速器控制单元存在问题的可能性了。那么,试车时感到的剧烈抖动又是从何而来呢?
虽然变速器的输入及输出轴转速没有跳动,但这并不能否定其加速度存在脉动。如果变速器输入扭矩所产生的加速度是脉动的,就必然会带来冲击振动的感觉。但这种冲击会被车辆的惯性所平滑,因此单从传动部分是看不出转速波动的。由此推断,作为传动装置的变速器,在故障出现时承受着某种扭矩冲击。直接换挡变速器与发动机曲轴是刚性连接的,这样推导下来,变速器受到的扭矩冲击应该是来自发动机。
再次连接故障诊断仪试车,这次将观察的重点放在了发动机上。回放数据(图4),在故障出现时,发动机的转速、进气压力、喷油脉宽、节气门开度和点火提前角都没有明显的变化,而明显升高的是负荷率和失火强度。当失火强度增加时,发动机实际输出的扭矩与当时的进气量所对应的正常扭矩相比是偏低的,这自然会使其功率储备降低,负荷率升高。在负荷率过高的情况下,如果失火强度过高发动机的抖动是难以避免的。由此可见,是由于发动机出现异常失火,导致了其输出扭矩的脉动。
考虑到该车的发动机用了缸内直喷技术,其喷油器的喷孔极小,容易出现堵塞,很可能是造成失火的原因。拆卸喷油器清洗后试车,再次观察发动机的数据流(图5)。这时发现失火强度增加的时段出现在节气门关闭后,这应该是发动机断油后所产生的,可以视为主动失火,目的是产生发动机制动效果,属于正常现象。将清洗喷油器前后的数据进行对比,清洗前失火强度的上升阶段是出现在节气门开度加大的瞬间,而清洗后失火是出现在节气门关闭后。清洗喷油器后,失火的情况改变了,显然问题是出在了喷油器上。
那么为什么故障总是出现在变速器处于2挡,发动机低转速的情况下呢?分析原因,这是由于当发动机在低转速运行时,因空气气流惯性的存在,其充气效率突然增加的潜力不大。当车辆需要加速时,发动机承受的负载突然加大。如果这时节气门开度不大,发动机的充气受到限制,负荷率会急剧增加。在这种情况下,混合气过稀所导致的发动机燃烧不良问题便会以扭矩输出不稳定的形式表现出来,于是便出现了曲轴的冲击现象。从失火检测的数据上看,也完全反映出了这种情况。当发动机转速升高后或节气门开度足够大时,其扭矩提升的潜力增大,负荷率降低,加上双质量飞轮的平滑作用,故障现象便会被掩盖起来。
故障排除:考虑到该车长期在混合气过稀和非正常失火状态下行驶,火花塞的性能会受到一定的影响。因此更换了火花塞。更换火花塞后再进行试车,发现车辆加速性能明显提升,在各种工况均再也不会出现车辆抖动的现象,故障彻底排除。
回顾总结:对于用了缸内直喷加直接换挡技术的车辆,由于技术较为新颖,所以维修人员往往会受到以往车辆试车感受的影响,产生一些误判。在这种情况下,维修工作难免会走弯路。本故障案例在诊断过程中,开始时把关注的重点放在了变速器上,思路远离了真正的故障点。通过不断地对试车数据进行分析,逐渐将注意力转到了发动机上,并最终找到了正确的诊断方向。这看起来是走了很大的弯路,但这与前维修人员错误地更换双离合器总成和液压电子集成式变速器控制单元相比,两者之间的维修风险却不可同日而语。
不难看出,汽车维修技术的发展趋势是分析加经验,所以要注重对系统原理的掌握,及数据分析能力的培养。在汽车故障诊断中,用数据分析的方法,即使走了弯路,也不会造成过大的损失。有时维修人员在数据分析层面中所走的弯路,反而成了加深对系统工作原理理解的催化剂,因此这种“走弯路”不失为一种学习掌握现代汽车技术的有效方法。通过这样的一次曲折经历,下次遇到同类型的故障时,就会得心应手。
汽车数据流分析之分析发动机转速
常见的分析方法有:分类分析,矩阵分析,漏斗分析,相关分析,逻辑树分析,趋势分析,行为轨迹分析,等等。 我用HR的工作来举例,说明上面这些分析要怎么做,才能得出洞见。
01) 分类分析
比如分成不同部门、不同岗位层级、不同年龄段,来分析人才流失率。比如发现某个部门流失率特别高,那么就可以去分析。
02) 矩阵分析
比如公司有价值观和能力的考核,那么可以把考核结果做出矩阵图,能力强价值匹配的员工、能力强价值不匹配的员工、能力弱价值匹配的员工、能力弱价值不匹配的员工各占多少比例,从而发现公司的人才健康度。
03) 漏斗分析
比如记录招聘数据,投递简历、通过初筛、通过一面、通过二面、通过终面、接下Offer、成功入职、通过试用期,这就是一个完整的招聘漏斗,从数据中,可以看到哪个环节还可以优化。
04) 相关分析
比如公司各个分店的人才流失率差异较大,那么可以把各个分店的员工流失率,跟分店的一些特性(地理位置、薪酬水平、水平、员工年龄、管理人员年龄等)要素进行相关性分析,找到最能够挽留员工的关键因素。
05) 逻辑树分析
比如近期发现员工的满意度有所降低,那么就进行拆解,满意度跟薪酬、、职业发展、工作氛围有关,然后薪酬分为基本薪资和奖金,这样层层拆解,找出满意度各个影响因素里面的变化因素,从而得出洞见。
06) 趋势分析
比如人才流失率过去12个月的变化趋势。
07)行为轨迹分析
比如跟踪一个销售人员的行为轨迹,从入职、到开始产生业绩、到业绩快速增长、到疲惫期、到逐渐稳定。
汽车行业推广要怎么做数据分析?
发动机转速与单位时间内做功的次数或发动机的有效功率有关,即发动机的有效功率随转速而变化。因此在解释发动机的有效功率时,需要注明其对应的转速。发动机产品铭牌上规定的有效功率及其对应的转速分别称为标称功率和标称转速。发动机在额定功率和额定转速下的工况称为额定工况。额定功率不是发动机能发出的最大功率,而是根据发动机的用途确定的有效功率的最大使用极限。同一型号的发动机,其用途不同时,额定功率值也不一样。有效扭矩也随着发动机运行条件而变化。因此,汽车发动机能够输出的最大扭矩及其对应的转速被用作评价发动机动力性能的指标。在汽车维修中,了解发动机转速的数据流是非常重要的,对分析和排除发动机故障起着更重要的作用。我们来看看如何分析发动机转速的数据流。发动机转速测量通常使用一个转速传感器,对应飞轮上的信号齿,来测量发动机转速。在读取电控装置的数据流时,检测器上显示的发动机转速是由电控汽油喷射系统微机(ECU)或汽车动力系统微机(PCM)根据发动机的点火信号或曲轴位置传感器的脉冲信号计算出来的,反映了实际的发动机转速。发动机转速的单位一般是转/分,从0到最动机转速不等。这个参数本身没有分析价值,一般在分析其他参数时作为参考。怠速时发动机转速一般能达到700-1100转/分。
车联网数据分析(一):用户出行行为分析
首先对于汽车行业的网络推广数据分析你需要建立行业数据库,比如配件品牌、、市场价格等等,并在各大同行网站和网络搜集去收集相应的数据信息,如果人工来做是相当复杂的。
一是没有数据,二是没有技术。现在都是找专业的数据挖掘公司做,比如广州惠众这种做精准营销的公司就有强大的数据挖掘能力。你可以去了解下“数据 - 数字时代的石油”
“数据是新的石油”
在网络上、媒体上我们经常看到有人这样宣扬。
问题是: 我们能够像提炼石油一样从数据中提炼出价值来吗?
笔者多年从事汽车及出行领域的信息技术(IT)及产品研发,在这里就车联网数据分析的一些实践做个分享,看看能够从这些数据“石油”中提炼点什么,抛砖引玉。
下面的分析是针对单个车辆的车联网数据进行分析,而不是群体车辆的行为分析。
笔者从下面几个方面进行探讨(具体的会根据实际情况和各方面的反馈来调整):
- 用户出行行为分析
-?用户驾驶行为分析
-?燃油车车辆动态行为分析
-?电动车电池及充放电行为分析
-?能耗分析
本篇分享一下用户出行行为的分析过程。
先看看车联网数据到底有多大,各家OEM和后装解决方案的数据集信号、集频率都不同,也没有行业统一标准。这里举一个例子,让大家粗略感受一下。
- 设数据集频率为1 Hz(所有信号每秒样1次),家用汽车平均每天使用2个小时(燃油车引擎启动就开始集数据),一年就集了365 * 2 * 3600 = 2.628 * 106次。
-?如果每次集的数据量为10 KB,那么,一辆车一年就产生大约26.3 GB 的数据。
-?一年一百万辆装备有车联网的车将会产生26.3 GB * 106= 26.3 PB。(2018年中国有6家OEM年销量过百万)。
- 丰田、大众、雷诺日产2018年全球销量均超过1000万。设这几家OEM在未来数年内销量均保持这一水平,并且从今年开始实现100%新车车联网,每辆车平均寿命6年,那么6年后这些OEM存量车联网的车就是6000万,每家OEM每年将新增数据:26.3 GB * 60,000,000 = 1578 PB = 1.578 EB/年.
这么大的数据量,集、传输、存储,如果以现在的技术和市场价格,成本是十分惊人的。所以,笔者大胆猜测,大多数OEM和物流公司在实际运营中都会降低样频率,或者减少样信号,或者以驱动,而不是以固定频率样数据,以节省成本,尽管,技术上没有问题。
对上述目标的分析,笔者使用的车联网数据集来自于一辆车联网实验性乘用轿车。数据源本身就是脱敏的,去除了位置信息、用户信息、车辆等静态信息,只有车辆的动态数据。时间跨度为:2017年6月至8月。
样频率高于1Hz,也就是平均每秒钟样不止一次。原则上,样频率越高越好,这样保留了高频信息,可以更加深刻地分析车辆的动态行为。
这几年热得一塌糊涂的无人驾驶,主要传感器的样频率都不低于10 Hz。为什么样频率要求这么高呢?比如,在高速公路上以120公里/小时的时速行驶,那么每秒钟行驶的距离是:120000/3600 = 33.3 米/秒。也就是说,在0.1秒的时间里(对应10 Hz),车辆已经行驶了3.33 米,这个距离足以将车辆驶离车道并酿成事故。
有了原始车联网数据(通常以CSV文件格式保存),笔者要对它进行预处理,为后续的数据探索、可视化,以及模型分析准备原料。
笔者使用的工具全程都是 R语言。
如何处理?要不忘初心、牢记使命:本部分数据分析的目的是 – 用户出行行为分析 。
基于该目的,我们所需要的数据项其实很少,只需要下面三项数据就可以了(是不是太简单了点?是的,就是这么简单。就像,都是小麦,光面条就可以做出很多种,更不要说各种面包,还有数不清的 dumpling了):
-?时间戳– 每条记录发生的日期和时间
-?里程表
-?引擎转速– 判断车辆状态
如果有明确的、可靠的信号用于判断车辆状态,那么不建议使用“引擎转速”了。笔者认为这完全取决于实际的数据质量和内容。如果各位大神有更好的解决方案,欢迎分享和交流哦。
把其他的数据项暂时摈弃,只保留这三项,现在可以进行下一步了。
如果上述数据中,不同信号的集频率不一样,那么,合并(或者叫融合,信号之间的融合)数据是非常重要的一步。合并可以发生在清洗、整理、聚合中间,或之前、之后的某个时间,具体要根据实际数据的情况来决定,很难一概而论。
首先了解选择的数据集的summary信息,可以快速知道哪些字段有数据缺失,有多少缺失。如果有缺失值,需要分析这些数据对我们的分析目的会有什么影响。如果没有什么影响,就删掉它们。
其次,时间戳是以字符串的形式存储的,包括日期和时间,笔者用的数据集精确到毫秒。这样不利于后续的计算和分析。需要把它转化成便于计算和分析的数据。毫秒的精度对我们分析用户出行行为来说没有意义,所以,由时间戳生成年、月、日、时、分、秒,这样,后续可以按照这些时间尺度进行聚合。
最后,按秒对数据进行聚合。选择的数据集高于1Hz的样频率,但是实际原始数据往往不会100%严格按照相同的样频率生成数据,有时1秒内有多条记录,有时会有缺失,看起来不是完全连续的。如果是车速等数据,聚合时用平均值。里程数据是个累计值,所以取每秒内的最后一个数值,为了计算简单,都用平均值也可以,因为1秒内里程数据很难有大的变化。
经过这些步骤后,数据就规整了很多,可以进行下一步了。
将数据分割成一个个单独的驾驶行程,这样可以方便后面的出行行为分析了。
如何判断一个驾驶行程的开始和结束呢?
对于燃油车,一般来说,发动机启动后,才开始集车联网数据,所以,没有数据就可以定为车子是熄火的。这里用的数据就是燃油车的数据。
对于纯电动车(BEV),充电的全过程都会集数据。
对于插电混动(PHEV)车,判断的依据要更加复杂一些,这个问题以后再讨论。
需要注意的是,真实数据通常不可能是理想的,每一步都要仔细检查,如果有疑问,或者不合理,找出那些引起可疑的数据,仔细分析原因,再根据发现的原因进行调整。这是一个不断试验、不断迭代的过程。
完成技术上的分割后,需要合并、过滤,得到相对合理的“有意义的”驾驶行程,在这个示例中,笔者得到了142次驾驶行程。也就是说,从2017年6月至8月的时间里,开了142次车。
处理完这些之后,我们就可以下锅做菜了,看看能不能做出点有意思的东东来吧。
分析的过程通常是由浅入深、由全局到局部。
如果数据足够多,建议先从大的时间尺度开始,比如从年开始,到月、日、小时,再到单个驾驶行程。最后,看看这些驾驶行程之间的关系,行程和各个时间维度之间的关系。一步步深挖。
首先,对整个数据集要有一个总体的认识,这个可以通过统计下面表格中的指标来完成。列出来的指标只是用于示例,具体需要统计哪些值应该根据分析的目的、业务场景、实际的原始数据集等。还是那句话:具体情况,具体分析。
其次,我们看一看该用户每月驾驶(出行)的频次,和旅行的总里程(公里数)。如图1所示,7月份开车的次数和行驶总里程最多,差不多是6月和8月的两倍。
从每月开车的次数来看,7月份开了70次左右,6月份半个月就有接近40次,而8月份仅有34次开车记录。那我们很想知道 8 月份的开车次数为什么减少了那么多呢?
统计一下每天驾驶的次数,如图2所示。结果有些让人意外,6月份从14日至24日(11天),7月份从10至29日(共18天,中间缺了2天),8月份从5至12日,27至31日(总共13天),其他的日期没有车联网数据。接近一半的日期里没有车联网数据。
是什么原因导致的呢?是那些天用户完全没有开车吗?还是由于某种原因,数据没有传输上来呢?
回答这个问题并不难。
我们还是从查看原始数据着手,里程表是不断递增的。比对最后一条记录的里程表和第一条记录的里程表数据得知,两者的差值是5646公里。回想前面表格里统计的“总驾驶里程”为2666公里,这说明在那些缺失数据的日期里,车辆仍然驾驶了接近3000 公里。
这也提醒分析人员,如果再对这批数据按月份进行分析,已经失去了意义。
因为这批原始数据来自于一辆车联网实验性的乘用轿车,我们不能要求太高。但是对我们实践我们的研究方法依然有效。
再前进一步,从日期的角度看看用户驾驶/出行的特征。如图3所示,共统计了三个指标的分布:
1. 左上– 每天驾驶次数的分布,中值是3次,最多有7次。说明该用户开车比较频繁。
2. 右上– 每天行驶距离的分布,中值是63公里左右,最多一天行驶261公里。
3. 左下和右下两张图– 每天驾驶时长的分布,中值在90分钟处,说明该用户每天大约开车一个半小时。用频率图从另一个角度可以看到驾驶时长的分布特征。
在实际工作的时候,分析人员根据实际情况选择该用什么样的图表来更好地展现。
现在分析 单次驾驶的行为特征 。先从最简单的统计特征,单次驾驶距离和驾驶时长,入手。如图4所示,
- 该用户开车的距离多数在10公里以内,或者在30-50公里范围内。
- 每次开车多数分布在5-15分钟内,或者在30-60分钟内。
无论是距离还是时间长度都有两个峰值,是不是有某种背后的原因? 又一次把笔者的胃口吊起来了。
下面我们看一看单次驾驶距离的散点图,如图5所示,每一次驾驶的距离在图中表示为一个小圆点,从6月14日开始的第一次驾驶到8月31日记录的第142次驾驶,总共142个点。
根据前面的距离分布图(图4)得到的启示,我们从下图中可以观察到几个特征:
1. 有一个超过200公里的行程,鹤立鸡群。其余的都没有超过100公里的。
2. 在15公里以下有很多点行驶距离十分接近。
3. 在30-50公里也有很多点的行驶距离十分接近。
我们似乎找到了前述疑问的答案,但是咱们既然是做数据分析,就要显得更加“科学”和“客观”,让数据来说话,而不是凭肉眼观察和猜测,否则,怎么显示出分析师的“”来呢?
如何让数据说话呢? 聚类分析 是个好的工具,尤其是这里只有一个变量,K均值的方法就可以了,简单易行。
一开始,我们并不能确切地知道(装不知道,这样才能“客观”)该分成几个聚类簇,一个做法是:从K = 1 到n(n 的取值要足够大,以保证最佳簇个数不大于n)都做一次聚类分析,然后比较各个K值下的 Betweens/TSS (簇之间的总平方和 / 总离差平方和),该比值越大,聚类效果越好。一般来说,K值越大,该比值也会越大。极端的情况是,比如,有100个点,分成100个聚类簇,这样当然没有意义。所以这里需要一个主观判断,通常在比值差不多的情况下,应该选择最小的K值作为最佳聚类簇。
在这个例子中,我取n = 10,因为直觉告诉我,最多3或4个聚类簇就够了,在此基础上放宽一到两倍作为n的取值应该足够了。
直觉会告诉我们可能有几个聚类,但是不要完全相信直觉(否则,就不“客观”了),还是应该让数据说话。
这里多啰嗦几句:在做数据分析的时候,直觉很重要,但是笔者建议更多地应该把直觉当成线索、孕育新的想法,就像是破案一样。如果有一些小伙伴一起探索、探讨就更好了,可以时不时地问问:“元芳,你怎么看?”。
好了,把K从1到10循环做聚类分析,将这10个K值对应的Betweens/TSS显示在图上,如图6所示。可以清楚地看到,K = 3 和 K = 4 时,结果非常接近,但是比 K = 2 时显著改善,所以,笔者选定 K = 3 作为最佳聚类簇。
按照K = 3做聚类分析,重新绘制图5:单次驾驶的距离– 散点图,同时用不同的颜色区别聚类簇,如图7所示。
从图中,可以清晰地看出簇1(红色)只有一个点,就是那个单次驾驶距离最大的那个点,超过200公里,再一次鲜艳地鹤立鸡群。
既然簇1(红色)只有一个点,明显是一个特例,就不再深挖了(真相是挖不下去了)。
下面对簇2和簇3分别作进一步的分析。
对簇2(绿色)的驾驶次数,分别按照一天24小时、星期、单次驾驶距离,和单次驾驶时长,作频率分布图,如图8所示。从图中可以观察到下面几个特点:
1. 大部分驾驶行为发生在下午至晚上,以下午3点至5点最多。
2. 周日至周六都有,但是以周二最少。 又是一个线索,不是吗? 值得进一步深挖。限于篇幅,就不再赘述了(累了,歇歇吧)。
3. 驾驶距离大部分不超过10公里。
4. 开车时间大部分不超过20分钟。
好像是一个生活比较有规律的人啊。
同样,对簇3(蓝色)也做同样的分析,如图9所示,仔细观察这些分布图,可以发现下面几个特点:
1. 驾驶的时间十分有规律,大部分发生在早上10 - 11点,和晚上7 - 9点。
2. 周一至周5特别显著,周日完全没有。
3. 驾驶距离大部分出现在30 - 36公里之间。
4. 开车时间大约在30 - 60分钟之间。
从这些特征不难推测,簇3反映的是工作日上下班的驾驶行为。而家里到公司的距离大约30多公里,单程需要开车30分钟至1小时。交通状况还是不错的哦。
平均来看,上班时间大约早上10点,下班时间晚上8点。是不是和某一类熟悉的人群的特征比较吻合啊?有一种似曾相识的感觉。
结合簇2的特征,工作之余,主要在方圆10公里的范围内活动。簇1告诉我们,3个月内仅有一次远门。哈哈,形象更加丰满啦!
一不小心又自嗨了,初当程序员时的毛病,这么多年还是没有完全改掉。别忘了,这3个月里还有一半的日子没有数据呢。
至此,要演示的用户出行行为的分析告一段落了。笔者用到的数据仅有三项:
- 时间戳
- 里程表
- 引擎转速(仅用于推算车辆状态)。
如果辅之以更多的、“相关的”数据字段,我们可以做更加深入的、多个角度的分析。
在这个过程中,如何提出问题、从数据中发现线索、不放弃任何一个疑点,然后像个一样,一步一步地挖掘。坦率地说,这个感觉真的不错。
后续,笔者还会就车联网数据在其他方面的分析,进一步分享,敬请期待!