تاثیر تکرار و اندازه نمونه بر روی پیش بینی نقشه‌ی حساسیت‌پذیری خطر زمین لغزش در بخشی از آبخیز گرگانرود با استفاده از الگوریتم مارس

نوع مقاله : پژوهشی

نویسندگان

1 ، دانشکده منابع طبیعی، دانشگاه علوم کشاورزی و منابع طبیعی ساری، ایران

2 تاثیر تکرار و اندازه نمونه بر روی پیش بینی نقشه‌ی حساسیت‌پذیری خطر زمین لغزش در بخشی از آبخیز گرگانرود با استفاده از الگوریتم مارس

10.22092/wmrj.2026.371697.1652

چکیده

زمین‌لغزش‌ها به عنوان یک خطر طبیعی مهم و گسترده، تهدیدات قابل توجهی برای زندگی انسان، زیرساختها و محیط زیست، به‌ویژه در مناطق کوهستانی و تپه‌ای ایجاد می‌کنند.. پیشرفت‌های اخیر در تکنیکهای یادگیری ماشین، در تلفیق با سیستم‌های اطلاعات جغرافیایی، پتانسیل بالایی را برای بهبود دقت نقشه‌های حساسیت‌پذیری زمین‌لغزش نشان داده‌اند. الگوریتم MARSیکی از این مدل‌های پیشرفته-کاوی است که به دلیل توانایی آن در مدیریت روابط پیچیده و غیرخطی بین عوامل مستعدکننده محیطی و وقوع زمین‌لغزش شناخته شده است. با این حال، عملکرد و قابلیت اطمینان مدل‌های یادگیری ماشین مانند MARS می-تواند به‌طور قابل توجهی تحت تأثیر پیکربندی مدل، به‌ویژه نسبت حجم نمونه مورد استفاده برای آموزش و اعتبارسنجی و تعداد تکرارهای مدل قرار گیرد. این مطالعه با هدف ارزیابی سیستماتیک تأثیر حجم نمونه و تعداد تکرارهای مختلف بر عملکرد پیش‌بینی‌کننده الگوریتم MARS برای نقشه‌برداری آسیب‌پذیری زمین‌لغزش در یک منطقه مستعد در آبخیز گرگانرود، استان گلستان، ایران انجام شده است. هدف اصلی این مطالعه، شناسایی ترکیب بهینه این پارامترها برای افزایش قابلیت اطمینان و دقت نقشه‌های حساسیت‌پذیری حاصل و در نتیجه ارائه ابزاری قدرتمندتر برای مدیران و برنامه‌ریزان اراضی است
این مطالعه در محدوده‌ای به مساحت ۴۱۱۵ کیلومتر مربع از آبخیزگرگانرود در شمال شرق ایران که با توپوگرافی پیچیده، سازندهای زمین‌شناسی متنوع و فعالیت قابل توجه زمین‌لغزش مشخص می‌شود، انجام شد. در مجموع ۳۵۱ موقعیت زمین‌لغزش تاریخی از طریق بررسی‌های میدانی، تفسیر تصاویر Google Earth و نقشه‌های موجود رخداد زمین‌لغزش، شناسایی و نقشه‌برداری شد. هجده عامل مؤثر بر وقوع زمین‌لغزش بر اساس بررسی پیشینه و ویژگی‌های محلی انتخاب شدند. این عوامل شامل: کاربری اراضی، فاصله از گسل، فاصله از رودخانه، لیتولوژی، درصد شیب، جهت شیب، مدل رقومی ارتفاع، بارش سالانه، شاخص رطوبت توپوگرافی، انحنای طولی، انحنای عرضی، فاکتورLS، تراکم زهکشی، بافت خاک، موقعیت شیب نسبی، شاخص توان جریان، شاخص زبری توپوگرافی و فاصله از جاده بودند. تمامی عوامل در نرم‌افزارهای ArcGIS 10.5 و SAGA GIS به لایه‌های رستری با اندازه پیکسل ۳۰x۳۰ متر تبدیل شدند. هم‌خطی بین این عوامل با استفاده از شاخص‌های عامل تورم واریانس و تلورانس در نرم‌افزار SPSS ارزیابی و منجر به حذف لایه شاخص زبری توپوگرافی به منظور جلوگیری از افزونگی شد. الگوریتم MARS با استفاده از سناریوهای مختلف تقسیم داده برای تحلیل حساسیت و عدم قطعیت مدل اجرا شد. دو سناریوی اصلی آزمایش شد: ۱) حجم نمونه‌های مختلف: ۵۰/۵۰٪، ۷۰/۳۰٪ و ۸۰/۲۰٪ (آموزش/اعتبارسنجی) با ۱۰ تکرار. ۲) تعداد تکرارهای مختلف: ۵، ۱۰ و ۱۵ تکرار برای تقسیم نمونه ثابت ۷۰/۳۰٪. عملکرد مدل برای هر سناریو با استفاده از منحنی ROC و سطح زیر منحنی ارزیابی شد. اعتبارسنجی بیشتر با استفاده از معیارهای مستقل از آستانه شامل حساسیت، ویژگی، کارایی، دقت، ضریب کاپا و شاخص یودن برای ارزیابی جامع برازش، پایداری و توانایی پیش‌بینی-کننده مدل انجام گرفت.
نتایج و بحث
نتایج ارزیابی نشان داد که مدل MARS در تمامی سناریوهای آزمایش شده عملکرد عالی داشته است، به طوری که مقادیر AUC بین 94/0-80/0 متغیر بود که دقت پیش‌بینی‌کننده "عالی" تا "برجسته" را طبق طبقه‌بندی استاندارد نشان می‌دهد. سناریوی استفاده از تقسیم نمونه ۸۰/۲۰٪ برای آموزش/اعتبارسنجی با مقدار AUC برابر 92/0، بالاترین مقدار را به دست آورد. در بین سناریوهای تکرار، مدل با ۱۵ تکرار، بالاترین AUC را معادل 94/0 تولید کرد. تحلیل بیشتر با استفاده از معیارهای اعتبارسنجی جامع، سناریوهای تقسیم نمونه ۸۰/۲۰٪ و ۱۵ تکرار را به عنوان باثباتترین و قویترین سناریوها شناسایی کرد. سناریوی ۸۰/۲۰٪ مقادیر بالایی برای حساسیت (87/0)، ویژگی (62/0)، کارایی (30/85٪)، دقت (75/0)، کاپا (50/0) و شاخص یودن (24/0) نشان داد. به طور مشابه، سناریوی ۱۵ تکرار نیز عملکرد قوی با حساسیت (۰.۸۴)، ویژگی (۰.۶۵)، کارایی (۸۶.۵۱٪)، دقت (۰.۷۴)، کاپا (۰.۴۹) و شاخص یودن (۰.۳۵) داشت. مقادیر بالای حساسیت، توانایی برتر مدل را در شناسایی صحیح مناطق مستعد زمین‌لغزش (مثبت‌های واقعی) تأیید می‌کند. ویژگی نسبتاً متوسط، نشان‌دهنده برخی محدودیتها در شناسایی صحیح مناطق پایدار است که با توجه به ماهیت پیچیده و چندعاملی پدیده زمین‌لغزش انتظار می‌رود. مقادیر قابل قبول کاپا و دقت کلی، بیانگر توافق خوب بین پیش‌بینی‌های مدل و مشاهدات میدانی است. تحلیل پایداری، نوسانات حداقلی در معیارهای دقت هنگام تغییر داده‌های ورودی را نشان داد که Robustness مدل را تأیید می‌کند. عملکرد برتر تقسیم ۸۰/۲۰٪ حاکی از آن است که تخصیص بخش بزرگتری از داده‌ها به مرحله آموزش برای مدل MARS در این زمینه سودمند است. به طور مشابه، افزایش تعداد تکرارها به ۱۵، سازگاری و قدرت پیش‌بینی‌کنندگی مدل را افزایش داده و اثرات تغییرپذیری نمونه‌گیری تصادفی را کاهش داد. این مطالعه با موفقیت کارایی بالای الگوریتم MARS را برای نقشه‌برداری حساسیت‌پذیری زمین‌لغزش در آبخیز گرگانرود نشان داد. بررسی سیستماتیک پارامترهای حجم نمونه و تعداد تکرار، نشان داد که این عوامل تأثیر معنی-داری بر عملکرد و پایداری مدل دارند. پیکربندیهای بهینه، تقسیم نمونه ۸۰/۲۰ برای آموزش/اعتبارسنجی و ۱۵ تکرار مدل شناسایی شدند که دقیق‌ترین، قابل اعتمادترین و باثبات‌ترین نقشه‌های حساسیت‌پذیری را تولید کردند. نقشه نهایی حساسیت‌پذیری زمین‌لغزش که تحت سناریوی بهینه تولید شد، به‌طور مؤثر حوضه را به طبقاتی با حساسیت-پذیری بسیار کم، کم، متوسط، زیاد و بسیار زیاد تفکیک می‌کند. توانایی مدل در ثبت روابط پیچیده و غیرخطی بین عوامل مختلف ژئو-محیطی و وقوع زمین‌لغزش، بر مزیت آن نسبت به مدل‌های آماری سنتی تأکید دارد. دقت پیش-بینی‌کننده بالا و Robustness مدل MARS که توسط معیارهای آماری متعدد اعتبارسنجی شده است، آن را به ابزاری ارزشمند و قابل اعتماد برای پیش‌بینی مکانی خطر زمین‌لغزش تبدیل می‌کند. نقشه حساسیت‌پذیری حاصل، مبنایی علمی و مستحکم برای تصمیم‌گیری آگاهانه در برنامه‌ریزی کاربری اراضی، توسعه زیرساختها، مدیریت خطر بلایا و اجرای اقدامات کاهشی هدفمند در منطقه مطالعه و مناطق مشابه مستعد زمین‌لغزش فراهم می‌کند.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Landslide Susceptibility Mapping Using the MARS Algorithm in a Part of the Gorganrud River Basin

نویسندگان [English]

  • Narges Javidan 1
  • ataollah Kavian 2
1 Faculty of Natural Resources, Sari Agricultural Sciences and Natural Resources University. Iran
2 - Professor, Department of Watershed Management, Sari Agricultural Sciences and Natural Resources University.
چکیده [English]

Landslides represent a significant and widespread natural hazard, posing substantial threats to human life, infrastructure, and the environment, particularly in mountainous and hilly regions.Recent advancements in machine learning (ML) techniques, integrated with Geographic Information Systems (GIS), have shown great promise in improving the accuracy of landslide susceptibility maps (LSMs). The Multivariate Adaptive Regression Splines (MARS) algorithm is one such advanced data mining model known for its ability to handle complex, non-linear relationships between environmental predisposing factors and landslide occurrence. However, the performance and reliability of ML models like MARS can be significantly influenced by the model's configuration, particularly the sample size ratio used for training and validation, and the number of model replications. This study aims to systematically evaluate the impact of different sample sizes and replication numbers on the predictive performance of the MARS algorithm for landslide susceptibility mapping in a landslide-prone area within the Gorganrud River Basin, Golestan Province, Iran. The primary objective is to identify the optimal combination of these parameters to enhance the reliability and accuracy of the resulting susceptibility maps, thereby providing a more robust tool for land managers and planners.
Materials and Methods
The study was conducted in a 4.115 km² section of the Gorganrud River Basin in northeastern Iran, an area characterized by complex topography, diverse geological formations, and significant landslide activity. A total of 351 historical landslide locations were identified and mapped through field surveys, interpretation of Google Earth imagery, and existing landslide inventory maps. Eighteen conditioning factors influencing landslide occurrence were selected based on literature review and local characteristics. These factors included: land use, distance from fault, distance from river, lithology, slope percentage, slope aspect, Digital Elevation Model (DEM), annual rainfall, Topographic Wetness Index (TWI), longitudinal curvature, transverse curvature, LS factor, drainage density, soil texture, Relative Slope Position (RSP), Stream Power Index (SPI), Topographic Roughness Index (TRI), and distance from road. All factors were converted to 30x30 m raster layers in ArcGIS 10.5 and SAGA GIS. Multi-collinearity among these factors was assessed using the Variance Inflation Factor (VIF) and Tolerance indices in SPSS software, leading to the removal of the TRI layer to avoid redundancy. The MARS algorithm was implemented using different data splitting scenarios to analyze sensitivity and model uncertainty. Two main scenarios were tested: 1) Different sample sizes: 50/50%, 70/30%, and 80/20% (training/validation) with 10 replications. 2) Different replication numbers: 5, 10, and 15 replications for a fixed 70/30% sample split. The model's performance for each scenario was evaluated using the Receiver Operating Characteristic (ROC) curve and the Area Under the Curve (AUC). Further validation was conducted using threshold-independent metrics including Sensitivity, Specificity, Efficiency, Accuracy, Kappa coefficient, and the Youden index to assess model fit, stability, and predictive capability comprehensively.
Results and Discussion
The evaluation results demonstrated that the MARS model performed excellently across all tested scenarios, with AUC values ranging from 0.80 to 0.94, indicating "excellent" to "outstanding" predictive accuracy according to standard classification. The scenario utilizing an 80/20% sample split for training/validation achieved the highest AUC value of 0.92. Among the replication scenarios, the model with 15 replications yielded the highest AUC of 0.94. Further analysis using the comprehensive validation metrics identified the 80/20% sample split and the 15-replication scenarios as the most robust and stable. The 80/20% scenario showed high Sensitivity (0.87), Specificity (0.62), Efficiency (85.30%), Accuracy (0.75), Kappa (0.50), and a Youden index of 0.24. Similarly, the 15-replication scenario exhibited strong performance with Sensitivity (0.84), Specificity (0.65), Efficiency (86.51%), Accuracy (0.74), Kappa (0.49), and a Youden index of 0.35. The high sensitivity values confirm the model's superior ability to correctly identify areas prone to landslides (true positives). The relatively moderate specificity indicates some limitations in correctly identifying stable areas, which is expected given the complex, multifactorial nature of landslide phenomena. The acceptable Kappa and overall accuracy values denote a good agreement between model predictions and ground observations. The stability analysis revealed minimal fluctuations in accuracy metrics when the input data were changed, confirming the model's robustness. The superior performance of the 80/20% split suggests that allocating a larger portion of data to the training phase is beneficial for the MARS model in this context. Likewise, increasing the number of replications to 15 enhanced the model's consistency and predictive power, mitigating the effects of random sampling variability.
Conclusion and Suggestions
This study successfully demonstrated the high efficacy of the MARS algorithm for landslide susceptibility mapping in the Gorganrud River Basin. The systematic investigation of sample size and replication parameters revealed that these factors significantly influence model performance and stability. The optimal configurations were identified as an 80/20 training/validation sample split and 15 model replications, which produced the most accurate, reliable, and stable susceptibility maps. The final landslide susceptibility map, generated under the optimal scenario, effectively delineates the basin into zones of very low, low, moderate, high, and very high susceptibility. The model's ability to capture complex, non-linear relationships between various geo-environmental factors and landslide occurrence underscores its advantage over traditional statistical models. The high predictive accuracy and robustness of the MARS model, as validated by multiple statistical measures, make it a valuable and trustworthy tool for spatial prediction of landslide hazards. The resulting susceptibility map provides a scientifically sound basis for informed decision-making in land-use planning, infrastructure development, disaster risk management, and the implementation of targeted mitigation measures in the study area and similar landslide-prone regions.

کلیدواژه‌ها [English]

  • Landslide Susceptibility
  • MARS Algorithm
  • ROC Curve
  • Sample Size
  • Replication
  • Gorganrud Basin

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 28 اسفند 1404
  • تاریخ دریافت: 17 آذر 1404
  • تاریخ بازنگری: 18 بهمن 1404
  • تاریخ پذیرش: 28 اسفند 1404