这个项目使通过机器学习来对稻飞虱的发生进行预测,包含四大稻区首迁期的预测和候(5天为以候)虫量的预测,来描述中国整个的虫情。
数据解释: 稻区和虫情解释: 由于中国地域辽阔,很难用一组数据对全国的情况进行概括,因此分成了四大稻区(华南,江淮,江岭,西南),对四大稻区的数据进行预测,分别得到四组不同的数据集,用这四组预测结果 来对整个中国的虫情进行描述。
气象数据说明 所有数据取自NECP再分析资料格点数据 依据站点的经纬度读取 此处为候数据,时间范围是2000年-2023年,一共1728候,完整无缺漏
我分别取了1000,925,850hPa数据,而包导让我们下载的是地面、925、850。
其实1000hPa层的数据是我顺便一起下的,1000hPa是比较靠近地面的,可以先看作是地面数据,但是1000hPa数据没有实际地面数据的准确,所以如果出了地面数据,1000hPa的就不要了。
(本人在写这段话时已经尝试在读取地面数据,但不是太理想,所以还没有放进这次的数据包)
1000->925->850 代表高度越来越高。在表格里面,从左往右,就是1000,925,850hPa的数据依次排列。
要素:气温air,垂直风omega,相对湿度rhum,水平风wind 含义:各个hPa层上的气温,相对湿度,垂直气流的风,水平方向的风
air文件:hPa层上的气温数据。
rhum文件:hPa层上的湿度数据。
omega文件:垂直速度(dp/dt),绝对值代表风速大小,而风向比较特殊,负的代表气流上升,正的代表下沉。
wind文件:一共12列,46列是风速大小,79列是风向的方位角,10~12列是风向方位角的对应的各个方位。
风向方位角与方位的关系:
34515度 偏北风,1号方位
1545度 北偏东,2号方位
4575度 东偏北,3号方位
75105度 偏东风,4号方位
105135度 东偏南,5号方位
135165度 南偏东,6号方位
165195度 偏南风,7号方位
195225度 南偏西,8号方位
225255度 西偏南,9号方位
255285度 偏西风,10号方位
285315度 西偏北,11号方位
315345度 北偏西,12号方位
文件说明: 虫情原始数据&气象数据原始数据都是用来进行训练的数集的原始数据集,里面的数据都未经过处理和规范化。 dealed_data是初步进行处理的数据集,包含各个特征值和结果的拼接,缺失值的处理等 deal_data(xlsx)是不同版本的处理过的数据集,里面包含了四大稻区的合并数据,现在的预测数据就来着这个文件夹。 cmip_Nor 是预测数据,包含了中国从2023年到2099年的预测气象数据,气象数据就是上文提到的
现在存在的问题: 使用随机森林进行预测数据和真实值之间的方差过大,一开始输入的特征值里面只有上述的气象数据,方差竟然高达20w,第一个解决方法是不去预测首迁期,而是预测首迁期与当日之间的差值,效果显著,将方差从20w下降到了8000左右,为了进一步降低方差,加入了'日期'最为新的特征值,将方差下降到了1300,但是后面就 无法继续下降了,要寻找其他的解决方法。