کارایی رویکردهای متعادل‌سازی داده در نقشه‌برداری رقومی خاک (مطالعه موردی: بخشی از اراضی استان زنجان)

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه علوم خاک، دانشکده کشاورزی، دانشگاه زنجان، زنجان، ایران

2 موسسه تحقیقات خاک و آب، سازمان تحقیقات، آموزش و ترویج کشاورزی، کرج، ایران

چکیده

سابقه و هدف: نقشه‌برداری رقومی خاک با استفاده از روش‌های نوین یادگیری ماشین به‌طور گسترده‌ای برای پیش‌بینی پراکندگی مکانی و ویژگی‌های مختلف خاک به کار گرفته می‌شود، بااین‌وجود یکی از محدودیت‌های استفاده از روش‌های نقشه‌برداری رقومی خاک در مطالعات خاکشناسی، عدم تعادل کلاس‌های خاک است که تأثیر منفی بر عملکرد الگوریتم‌های یادگیری ماشین دارد؛ بنابراین این پژوهش برای رفع این چالش و بهبود طبقه‌بندی کلاس‌های نامتعادل خاک با دو رویکرد نمونه‌گیری مجدد و یادگیری حساس به هزینه و استفاده از مدل پیش‌بینی جنگل تصادفی در استان زنجان انجام‌گرفته است.
مواد و روش‌ها: تعداد 148 خاک‌رخ مشاهداتی بر اساس الگوی طبقه‌بندی تصادفی با فاصله 500 متر حفر و پس از انتقال به آزمایشگاه تجزیه‌های مختلف فیزیکی و شیمیایی مطابق با روش‌های استاندارد بر روی آن‌ها انجام گرفت. متغیرهای محیطی شامل اطلاعات نقشه-های ژئومورفولوژی و زمین‌شناسی، مدل رقومی ارتفاع و داده‌های حاصل از تصاویر ماهواره‌ای لندست 8 بودند که بر اساس نظر کارشناسی و رویکرد تحلیل مؤلفه اصلی تعدادی از متغیرهای محیطی شامل اطلاعات نقشه‌های ژئومورفولوژی، اطلاعات زمین‌شناسی و ویژگی‌های مستخرج از مدل رقومی ارتفاع به‌عنوان مؤثرترین متغیرهای محیطی برای پیش‌بینی کلاس‌های خاک و به‌عنوان ورودی مدل انتخاب شدند. سایه‌اندازی تپه‌ها (AHS)، طلوع خورشید، عمق دره، شاخص طول در جهت شیب، فاصله تا شبکه آبراهه (CND)، شاخص رطوبتی توپوگرافی (TWI) و شاخص همواری بالای پشته با درجه تفکیک بالا (MRRTF) به‌عنوان مؤثرترین متغیرهای محیطی انتخاب شدند و بیشترین میزان تغییرپذیری مکانی خاک‌ها در منطقه را مدل‌سازی کردند. مدل‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌سازی رابطه خاک - زمین‌نما با استفاده از الگوریتم جنگل تصادفی و اصلاح داده‌های نامتعادل توسط رویکرد نمونه‌گیری مجدد با استفاده از توابع ubOver و ubUnder و همچنین رویکرد یادگیری حساس به هزینه با استفاده از تابع rf در بسته Random Forest در محیط برنامه‌نویسی Rstudio انجام شد.
نتایج و بحث: نتایج این پژوهش حاکی از این بود که خاک‌های منطقه در سطح زیرگروه در پنج کلاس با توزیع نامتعادل شامل تیپیک کلسی‌زرپتز، تیپیک هاپلوزرپتز، جیپسیک هاپلوزرپتز، تیپیک زراورتنتز و لیتیک زراورتنتز طبقه‌بندی شدند. بر این اساس مقادیر آماره‌های صحت کلی و ضریب کاپا برای ارزیابی نقشه خاک با داده‌های نامتعادل به ترتیب برابر 65 درصد و 32/0 بوده و پس از متعادل‌سازی داده‌ها در رویکرد نمونه‌گیری مجدد به ترتیب برابر 71 درصد و 54/0 و در رویکرد یادگیری حساس به هزینه به ترتیب برابر 86 درصد و 77/0 به دست آمد. زیرگروه‌های جیپسیک هاپلوزرپتز و لیتیک زراورتنز که جزء کلاس‌های اقلیت محسوب می‌شدند، هنگام استفاده از کلاس‌های نامتعادل پیش‌بینی‌نشده و حذف‌شده بودند اما پس از بهبود داده‌‌ها و بیش‌افزایی با دو رویکرد نمونه‌گیری مجدد و یادگیری حساس به هزینه به تعداد این دو کلاس اقلیت، پیش‌بینی این زیرگروه‌ها با صحت قابل قبولی افزایش نشان داد.
نتیجه‌گیری: نتایج ارزیابی مدل‌ها نشان داد که در مدل‌سازی با استفاده از توزیع نامتعادل کلاس‌های خاک، به دلیل از دست رفتن کلاس‌های با تعداد مشاهده کم، نقشه‌های نامطمئن با دقت نسبتاً ضعیفی ایجاد می‌شود که پس از اعمال متعادل‌سازی داده‌ها، دقت مدل‌های مبتنی بر روابط خاک - زمین‌نما در مطالعات نقشه‌برداری رقومی خاک ارتقا می‌یابد. نتایج نشان داد که رویکرد یادگیری حساس به هزینه با تمرکز بر روی کلاس‌های با تکرار کم، می‌تواند به‌عنوان یک مدل برتر در مناطق دیگر نیز مورداستفاده قرار گیرد. با توجه به اینکه تحقیقات درزمینه داده‌های نامتعادل در خاک محدود است، این مطالعه می‌تواند یک راه‌حل مؤثر برای مقابله با داده‌های نامتعادل در کلاس‌های خاک و تولید نقشه‌های رقومی خاک با دقت بالا باشد.

کلیدواژه‌ها


عنوان مقاله [English]

Improving the classification of imbalanced soil data using machine learning algorithms

نویسندگان [English]

  • Mastaneh Rahimi Mashkaleh 1
  • Mohammad Amir Delavar 1
  • Mohammad Jamshidi 2
1 Department of Soil Science, Faculty of Agriculture, University of Zanjan, Zanjan, Iran
2 Soil and Water Research Institute, Agricultural Research, Education and Extension Organization, Karaj, Iran
چکیده [English]

Introduction: Digital soil mapping using innovative machine learning methods is increasingly used to predict the spatial distribution and various soil properties. However in soil science studies, the use of digital soil mapping methods faces challenges due to the imbalance in soil classes, which negatively affects the performance of machine learning algorithms. Therefore, this study aims to address this challenge by improving the classification of imbalanced soil classes through two approaches: resampling and cost-sensitive learning, using the random forest prediction model in Zanjan Province.
Material and Methods: A number of 148 soil samples were collected based on a random classification pattern with a 500 meter spacing and subjected to various physical and chemical analyses in the laboratory following standard methods. Environmental covariates included geomorphological and geological maps, digital elevation model (DEM), and Landsat 8 satellite images, which were selected as inputs for soil class prediction based on expert opinion and principal component analysis (PCA). Some environmental covariates, such as geomorphological and geological maps information and features extracted from DEM, were identified as the most effective predictors for soil classes and were chosen as model inputs. Analytical hill shading (AHS), sunrise, valley depth, LS_factor, channel network distance (CND), topographic wetness index (TWI) and multi-resolution ridge top flatness index (MRRTF) were selected as the most effective environmental variables and modeled the most spatial variability of the soils of the region. Soil-landscape relationship modeling was done performed using Random Forest algorithm and correcting imbalanced data was done by resampling approach using ubOver and ubUnder functions and also by cost-sensitive learning approach using rf function in Random Forest package in Rstudio software environment.
Results and discussion: Soil subgroups were classified into five imbalanced classes, including Typic Calcixerepts, Typic Haploxerepts, Gypsic Haploxerepts, Typic Xerorthents, and Lithic Xerorthents. The validation results showed that the overall accuracy (OA) and kappa coefficient for evaluating the soil map with imbalanced data were 65% and 0.32, respectively. After data balancing through resampling, these values increased to 71% and 0.54, respectively, and in the cost-sensitive learning approach, they reached 86% and 0.77, respectively. Gypsic Haploxerepts and Lithic Xerorthents subgroups, considered minority classes, were unidentified and excluded when using imbalanced classes. However, after data improvement and augmentation with both resampling and cost-sensitive learning approaches, the prediction of these two minority classes demonstrated acceptable accuracy improvements.
Conclusion: The results of the evaluation of the models showed that in modeling using an unbalanced distribution of soil classes, due to the loss of classes with a small number of observations, uncertain maps with relatively poor accuracy are created, and after applying data balancing, the accuracy of models based on soil relationships - Topography is improved in digital soil mapping studies. The results showed that the cost-sensitive learning approach, focusing on classes with low repetition, can be used as a superior model in other areas. Considering that the research in the field of unbalanced soil data is limited, this study can be an effective solution to deal with unbalanced data in soil classes and produce digital soil maps with high accuracy.

کلیدواژه‌ها [English]

  • Random forest
  • Imbalanced data
  • Resampling
  • Cost-sensitive learning