农业信息小编为大家带来以下内容:
近年来,无人机、人工智能、机器学习、大数据等的运用,在我们的生活中层出不穷。 对于科研工作,科学家们也与时俱进,运用新的科学技术收集分析数据,从而帮助科研人员更方便、准确地预测研究结果。
*用于从单个图表中提取光谱数据的工作流程。
例如,作物田表型组分析。 另一方面,由于大规模农业推广,表型的收集变得非常困难,传统人力统计中工作量大,每个人评价表型的标准存在差异; 另一方面,统计分析的表型类型有限。 这些都极大地限制了科研人员对田间表型数据的准确、有效分析和质量、产量等的预测。
*分光收集受光元件组。
研究论文“preharvestphenotypicpredictionofgrainqualityandyieldofdurumwheatusingmultispectralimaging”,作者安装在无人飞机上的频谱成像仪
1 .表型数据机器学习模型数据与测试数据的比较
研究中考虑的所有性状根据环境的不同有很大的不同。 谷物产量最大测试数据为11.92吨/公顷,蛋白含量为11%,晶粒透明度为87.5%,容重为19.95公斤/百升。 训练集(用于模型训练)和测试集(用于评估模型预测能力)中的所有数据( Train和Test )分布相似。 所有性状在不同环境下的广义遗传力( p )较高,其中容重最高( p=0.96 ),谷物产量最低( p=0.72 ) )表1。
表1训练、测验集和遗传力的描述性统计。 2 .预测产量和质量
训练和测试集数据的预测统计无显著差异(表2 )。 产量性状在测试集中应用平均神经网络( avNNet )模型,具有较高的确定性系数( R2=0.84 ),即机器学习训练预测模型和测试结果具有较高的适用性。 产量预测精度中等(归一化均方根误差; nRMSE=0.17 ( )表2; 图1a )。 关于品质性状,蛋白含量、验证集中模型的的确定性系数( R2 )为69%。 蛋白质含量预测准确性高( nRMSE=0.07 ) )表2; 图1b )。 关于品质性状的晶粒透明度,avNNet模型的确定性系数为64%,具有中等预测精度( nRMSE=0.14 ) )表2; 图1c )。 质量性状容重确切定性系数为61%,预测精度非常高( nRMSE=0.03 ) )表2; 图1d )。 试验数据表明,产量、蛋白含量、晶粒透明度和容重性状的回归直线斜率分别为0.90、0.70、0.58、0.58。 所有坡度均存在显著差异( p 0.001 ),表明计算模型和观测数据建立的曲线(对照)高度拟合。
表2用于训练和试验成套的粮食产量和质量性状的预测统计。 图1观测数据和预测数据的散布图。 ( a )籽粒产量;b )蛋白质含量;( c )测试玻璃状( d )重量。 蓝点表示将训练平均神经网络( avNNet )模型应用于测试集得到的数据,灰色的点表示在训练集中观察到的数据。 红线是基于测试集数据的线性回归线,所有性状都是显著的p 0.001。 作为参考,黑色虚线表示1:1的关系。 所示的预测统计量参考测试集。
另外,根据实验集预测的残差图,在大区间中,产量和蛋白含量使用avNNet预测模型的结果,在超过预测值的情况和低于预测值的情况之间平衡发生了变动,但在晶粒的透明度和容积重的情况下,在超过模型的预测值的情况下稍微低于预测值的情况下
图2应用于验证集的平均神经网络( avNNet )模型的标准化残差图。 x轴为( a )籽粒产量) b )蛋白质含量) c )玻璃度) d )试验重量的预测数据。 颜色是四种主要处理方式,灌溉、雨养、晚熟、氮肥。 灰色线表示在所有主要处理中局部估计的“散点平滑”( locallyestimatedscatterplotsmoothing,LOESS )线。 晶粒透明度表型极值标准化残差(-4 )表示相对于晶粒透明度表型观察值低)百分比的过大预测(图1c; 图2c )。 所有考察性状的标准化残差与生长状况之间未观察到明确的模式。 但与品质性状容重相关的后期栽培条件数据有过高的预测趋势(图2d )。 值得注意的是,质量性状容重的残差图显示了两个团簇的分离(图2d )。 被预测容积重较低范围内的小聚类与2017年在Aranjuez实验站获得的单个时间点的数据相关。 三个最极端的标准化残差(-2.5 )与雨养条件下品种佩德罗索( Pedroso )相关。 将试验组的各项预测分配给各个品种,并与各个品种的观测数据进行比较,发现两个品种Pedroso观测到的容重数据与预测容重数据差异有显著性( p=5.9e-6 )和Dnorman(p=0.027 ) 图3品种集成的验证集观察和预测数据的线图。 ( a )籽粒产量,( b )蛋白质含量,( c )晶粒透明性,( d )容重。 蓝色表示观测数据,红色表示通过将训练平均神经网络( avNNet )模型应用于测试集获得的预测数据。 每个品种验证集的数据点数用字母n表示。 构成测试集的品种不同。 因为针对每个性状,会从完整的数据集中随机提取7个品种。
迄今为止,作者通过比较机器学习模型的统计预测结果与观测数据的拟合优度等,验证了通过大数据的收集、运用机器学习建立模型来有效预测产量和质量的可行性和有效性。 但是,这种模型的建立并不是普遍的规律。 例如,本研究中使用的测试装置只包含了7个随机选择的品种(图3 )。 因此,这有助于恰当地评估对不可见数据的预测能力,但必须考虑它们的有限大小。 但是,考虑到训练集和测试集之间可比较的预测统计量(表2 )和在本研究中使用的数据中观察到的广泛表现型变异,如果应用于其他硬质小麦品种,可以预测模型的预测能力不会有很大的差异。 而且,从育种的观点来看,将训练过的模型应用于独立的测试集时,除了两种情况外,品种的预测值和观察到的值没有明显差异(图3 )。 这表明所建立的模型适合在硬粒小麦育种群体中表现出优良的基因型。
我们不知道这些算法是否真的有助于我们的具体科学研究。 但实践是检验一切真理的唯一标准,有条件的团队和感兴趣的伙伴可以借鉴学习,根据光谱数据预测产量、质量等。 看能否在各种环境、材料、表型中有效运用。
原文链接:
3359 online library.Wiley.com/doi/pdf/10.1111/tpj.15648
扫描二维码
关注我们
小麦族多组学网站: http://wheatomics.sdau.edu.cn
帖子、合作等邮箱: shengweima@icloud.com
微信群:加群点击小麦研究联盟交流群
杂志影响因子查询:点击查询
中国Www.yileen.Com.CN艺莲园专注中国农业种植和养殖技术的综合性农业知识网站,涵盖蔬菜,水果,园林花卉,茶叶,粮油,饲料食用菌,温室灌溉,农业机械,水产,渔业,畜牧家禽,特种养殖,农业会展。