پیش‌بینی تأثیر پیوند از دور بر شاخص PM2.5 در استان سیستان و بلوچستان با استفاده از مدل‌های یادگیری ماشین

نوع مقاله : پژوهشی

نویسندگان

1 گروه مهندسی منابع طبیعی، دانشکدة علوم کشاورزی و منابع طبیعی، دانشگاه هرمزگان، بندر عباس، ایران

2 دانشیار مهندسی منابع طبیعی و ژئومرفولوژی، دانشکده کشاورزی و منابع طبیعی، دانشگاه هرمزگان، بندرعباس، ایران

3 گروه فضای سبز، دانشکدة جغرافیا و برنامه ریزی محیطی، دانشگاه سیستان و بلوچستان، زاهدان، ایران

10.22092/wmrj.2025.369570.1624

چکیده

مقدمه و هدف
آلودگی هوا، به‌ویژه افزایش غلظت ذرات معلق PM2.5، در سال‌های اخیر به‌عنوان یکی از چالش‌های مهم زیست‌محیطی مطرح شده است. استان سیستان و بلوچستان به دلیل موقعیت جغرافیایی خاص این استان که در مسیر بادهای ۱۲۰ روزه سیستان قرار دارد، همراه با کاهش بارندگی‌های سالانه، شرایط ایده‌آلی برای تشکیل و تشدید پدیده گرد و غبار را فراهم می‌کند. در این راستا، پدیده‌های پیوند از دور (Teleconnections) نقش مهمی در تغییرات اقلیمی و به تبع آن در کیفیت هوا ایفا می‌کنند. هدف اصلی این پژوهش، پیش‌بینی تأثیر شاخص‌های پیوند از دور بر تغییرات PM2.5 در استان سیستان و بلوچستان با استفاده از مدل‌های پیشرفته یادگیری ماشین است. بدین منظور، داده‌های هواشناسی و غلظت PM2.5 طی دو دهه از ایستگاه‌های زاهدان و خاش جمع‌آوری و با شاخص‌های پیوند از دور تلفیق شدند. سپس با به‌کارگیری روش‌های تحلیل همبستگی و انتخاب ویژگی‌، پنج مدل یادگیری ماشین ارزیابی شدند تا بهترین مدل برای پیش‌بینی بلندمدت شناسایی شود. این مطالعه نه‌تنها به درک بهتر روابط پیچیده بین نوسانات اقلیمی و کیفیت هوا کمک می‌کند، بلکه با ارائه یک چارچوب تحلیلی دقیق، ابزاری کاربردی برای سیاست‌گذاران در مدیریت آلودگی هوا فراهم می‌نماید.

مواد و روش‌ها
روش تحقیق این پژوهش از یک چارچوب تحلیلی چندمرحله‌ای جامع بهره گرفته که در آن داده‌های هواشناسی و غلظت ذرات PM2.5 از ایستگاه‌های زاهدان و خاش طی دوره ۲۰۰۰ تا ۲۰۲۱ جمع‌آوری شده و با داده‌های شاخص پیوند از دور مرکز پیش‌بینی اقلیم NOAA تکمیل گردیده است. پس از انجام پیش‌پردازش دقیق داده‌ها شامل کنترل کیفیت، همزمان‌سازی زمانی و جایگزینی داده‌های مفقود، یک رویکرد تحلیلی دوگانه اجرا شد: ابتدا از تحلیل همبستگی پیرسون برای سنجش روابط خطی بین شاخص‌های پیوند از دور و سطوح PM2.5 استفاده گردید و سپس الگوریتم Boruta موثرترین ویژگی‌ها را در تأخیرهای زمانی صفر تا ۶ ماهه شناسایی نمود. پنج مدل پیشرفته یادگیری ماشین شامل Bagged CART، LightGBM، Gradient Boosting، Random Forest و XGBoost مورد ارزیابی قرار گرفتند که ۷۰ درصد داده‌ها برای آموزش مدل و مابقی برای اعتبارسنجی استفاده شد. ارزیابی عملکرد با سه معیار ریشه میانگین مربعات خطا (RMSE)، میانگین درصد خطای مطلق (MAPE) و ضریب تعیین (R²) انجام پذیرفت و برای تفسیرپذیری مدل‌ها، چهار تکنیک پیشرفته شامل اهمیت ویژگی‌های جایگشتی (PFI)، مقادیر SHAP مبتنی بر تئوری بازی‌ها، تحلیل حساسیت Sobol و نمودارهای وابستگی جزئی (PDP) به کار گرفته شد. کلیه تحلیل‌ها در محیط نرم‌افزار R (نسخه ۴.۲.۰) انجام شده است.
نتایج و بحث
نتایج این مطالعه نشان داد که شاخص‌های پیوند از دور تأثیر معناداری بر غلظت ذرات PM2.5 در ایستگاه‌های زاهدان و خاش دارند. در ایستگاه زاهدان، شاخص PDO بیشترین همبستگی مثبت (158/0 با تأخیر 5 ماهه) و شاخص AMO بیشترین تأثیر مثبت (212/0 با تأخیر صفر ماهه) را نشان داد. در مقابل، شاخص AMM بیشترین همبستگی منفی (336/0- با تأخیر 2 ماهه) و شاخص WHWP قوی‌ترین تأثیر منفی (420/0- با تأخیر 4 ماهه) را داشت. در ایستگاه خاش، شاخص PDO بیشترین همبستگی مثبت (159/0 با تأخیر 2 ماهه) و WHWP بیشترین اثر منفی (385/0- با تأخیر 4 ماهه) را نشان داد. تحلیل اهمیت ویژگی‌ها با روش Boruta نشان داد که WHWP بیشترین نقش پیش‌بینیکننده را برای PM2.5 دارد، با میانگین امتیاز اهمیت 63/13 در تأخیر 6 ماهه در زاهدان و 51/10 در تأخیر 5 ماهه در خاش. در ارزیابی مدل‌ها، XGBoost به عنوان مدل برتر شناخته شد که با دقت استثنایی (989/0=R² در زاهدان و 994/0-993/0=R² در خاش) و حداقل خطا (07/3-36/2MAPE= در زاهدان و 8/1-5/1MAPE= در خاش) عمل کرد. تحلیل‌های حساسیت نشان داد که AMM بیشترین تأثیر کلی را دارد، با امتیاز اهمیت 685 در زاهدان و 561 در خاش، در حالی که شاخص‌های WHWP و AMO رفتارهای غیرخطی پیچیده‌ای در زمان‌های تأخیر خاص نشان دادند. این یافته‌ها به طور جمعی نشان می‌دهند که نوسانات اقیانوسی-جوی، با ضرایب همبستگی بین 15/0 تا 42/0 و امتیازهای اهمیت متغیر بین 6/5 تا 6/13، تأثیر قابل توجهی بر کیفیت هوای منطقه دارند. عملکرد برجسته مدل XGBoost نشان‌دهنده پتانسیل قوی آن برای کاربردهای پیش‌بینی بلندمدت PM2.5 در منطقه مورد مطالعه است.
نتیجه‌گیری و پیشنهادها
نتایج تحلیل همبستگی نشان داد که شاخص‌های PDO و AMO بیشترین تأثیر مثبت را بر غلظت PM2.5 در زاهدان داشته‌اند، در حالی که شاخص‌های AMM و WHWP در این ایستگاه تأثیر منفی نشان دادند. یافته‌های روش Boruta تأیید می‌کند که شاخص‌های WHWP و AMM در پیش‌بینی PM2.5 در تأخیرهای زمانی خاص نقش کلیدی ایفا می‌کنند، به‌طوری که WHWP در تأخیرهای بلندمدت‌تر (4 تا 6 ماهه) بیشترین تأثیر را دارد. در بخش مدل‌سازی، XGBoost به عنوان بهترین مدل با دقت بالا و کمترین خطا شناسایی شد. تحلیل‌های SHAP، Sobol و PDP نشان دادند که شاخص‌های مرتبط با اقیانوس اطلس (AMM و AMO) در زاهدان تأثیر غالب دارند، در حالی که رفتار غیرخطی شاخص‌هایی مانند WHWP در محدوده‌های خاصی از مقادیر منجر به تغییرات ناگهانی در پیش‌بینی‌ها می‌شود. در ایستگاه خاش، شاخص PDO بیشترین همبستگی مثبت و WHWP بیشترین تأثیر منفی را نشان داد که بیانگر تأثیر قابل توجه نوسانات اقیانوسی بر کیفیت هوا است. تحلیل اهمیت ویژگی‌ها با روش Boruta در ایستگاه خاش نشان داد که شاخص‌های AMM، AMO، PDO و WHWP نقش کلیدی در پیش‌بینی PM2.5 ایفا می‌کنند، در حالی که شاخص‌های Tropical Northern Atlantic Index (TNA) و WP به دلیل اهمیت کم رد شدند. در بخش مدل‌سازی، XGBoost به عنوان بهترین مدل شناسایی شد. تحلیل‌های PDP نشان دادند که شاخص‌های اقلیمی تأثیرات غیرخطی و پیچیده‌ای بر PM2.5 دارند، به‌طوری که AMM رفتار نوسانی در تأخیرهای مختلف نشان می‌دهد و WHWP در تأخیر 5 ماهه باعث کاهش ناگهانی غلظت PM2.5 می‌شود.

کلیدواژه‌ها


عنوان مقاله [English]

Prediction of Teleconnection Effects on PM2.5 index in Sistan and Baluchestan province using machine learning models

نویسندگان [English]

  • abolfazl davari 1
  • Rasool Mahdavi Najaf abadi 2
  • marziyeh rezaii 1
  • omolbanin bazrafshan 1
  • alireza shahriari 3
1 Department of Natural Resources Engineering, Faculty of Agricultural Science and Natural Resources, University of Hormozgan, Bandar Abbas, Iran
2 Associate Professor of Natural Resources Engineering, University of Hormozgan, Bandar Abbas, Iran
3 Department of green space, Faculty of Geography and Environmental planning, University of Sistan and Baluchestan, Zahedan, Iran
چکیده [English]

Air pollution, especially the increase in the concentration of PM2.5 particles, has been raised as one of the major environmental challenges in recent years. Due to its specific geographical location, which is located in the path of the 120-day Sistan winds, along with the decrease in annual rainfall, Sistan and Baluchestan province provides ideal conditions for the formation and intensification of dust phenomena. In this regard, teleconnections play an important role in climate change and, consequently, in air quality. The main objective of this research is to predict the impact of teleconnection indices on PM2.5 changes in Sistan and Baluchestan province using advanced machine learning models. For this purpose, meteorological data and PM2.5 concentrations were collected from Zahedan and Khash stations over two decades and combined with teleconnection indices. Then, using correlation analysis and feature selection methods, five machine learning models were evaluated to identify the best model for long-term forecasting. This study not only contributes to a better understanding of the complex relationships between climate variability and air quality, but also provides a practical tool for policymakers in air pollution management by providing a detailed analytical framework.
Materials and Methods
Research Methodology This study used a comprehensive multi-stage analytical framework in which meteorological data and PM2.5 particle concentration were collected from Zahedan and Khash stations during the period 2000 to 2021 and supplemented with NOAA Climate Prediction Center remote sensing index data. After performing careful data preprocessing including quality control, temporal synchronization, and missing data replacement, a dual analytical approach was implemented: first, Pearson correlation analysis was used to measure linear relationships between remote sensing indices and PM2.5 levels, and then the Boruta algorithm identified the most effective features at time lags of 0 to 6 months. Five advanced machine learning models including Bagged CART, LightGBM, Gradient Boosting, Random Forest, and XGBoost were evaluated, with 70% of the data used for model training and the rest for validation. Performance evaluation was performed using three criteria: root mean square error (RMSE), mean absolute percentage error (MAPE), and coefficient of determination (R²). For interpretability of the models, four advanced techniques were used, including permutation feature importance (PFI), SHAP values based on game theory, Sobol sensitivity analysis, and partial dependency diagrams. All analyses were performed in the R software environment.
Results and Discussion
The results of this study showed that the remote linkage indices have a significant effect on the concentration of PM2.5 particles at Zahedan and Khash stations. At Zahedan station, the PDO index showed the highest positive correlation (0.158 with a 5-month lag) and the AMO index showed the highest positive effect (0.212 with a 0-month lag). In contrast, the AMM index had the highest negative correlation (-0.336 with a 2-month lag) and the WHWP index had the strongest negative effect (-0.420 with a 4-month lag). At Khash station, the PDO index showed the highest positive correlation (0.159 with a 2-month lag) and the WHWP index showed the highest negative effect (-0.385 with a 4-month lag). The feature importance analysis with Boruta method showed that WHWP has the most predictive role for PM2.5, with an average importance score of 13.63 at 6-month lag in Zahedan and 10.51 at 5-month lag in Khash. In the evaluation of the models, XGBoost was identified as the superior model, performing with exceptional accuracy (R²=0.989 in Zahedan and R²=0.993-0.994 in Khash) and minimal error (MAPE=2.36-3.07 in Zahedan and MAPE=1.5-1.8 in Khash). Sensitivity analyses showed that AMM has the most overall impact, with an importance score of 685 in Zahedan and 561 in Khash, while WHWP and AMO indices showed complex nonlinear behaviors at specific lag times. Collectively, these findings indicate that ocean-atmosphere oscillations have a significant impact on regional air quality, with correlation coefficients ranging from 0.15 to 0.42 and significance scores ranging from 5.6 to 13.6. The outstanding performance of the XGBoost model indicates its strong potential for long-term PM2.5 forecasting applications in the study region.
Conclusion and Suggestions
The results of the correlation analysis showed that the PDO and AMO indices had the most positive effect on PM2.5 concentration in Zahedan, while the AMM and WHWP indices had a negative effect at this station. The findings of the Boruta method confirm that the WHWP and AMM indices play a key role in predicting PM2.5 at specific time lags, with WHWP having the most impact at longer time lags (4 to 6 months). In the modeling section, XGBoost was identified as the best model with high accuracy and the least error. SHAP, Sobol and PDP analyses showed that the Atlantic-related indices (AMM and AMO) have a dominant effect in Zahedan, while the nonlinear behavior of indices such as WHWP in certain ranges of values leads to sudden changes in the forecasts. At Khash station, PDO index showed the highest positive correlation and WHWP the highest negative impact, indicating the significant impact of oceanic oscillations on air quality. Feature importance analysis using Boruta method at Khash station showed that AMM, AMO, PDO and WHWP indices play a key role in predicting PM2.5, while Tropical Northern Atlantic Index (TNA) and WP indices were rejected due to low significance. In the modeling section, XGBoost was identified as the best model. PDP analyses showed that climate indices have nonlinear and complex effects on PM2.5, such that AMM shows oscillatory behavior at different lags and WHWP causes a sudden decrease in PM2.5 concentration at a lag of 5 months.

کلیدواژه‌ها [English]

  • Shapley value
  • Teleconnections. PM2.5
  • Sobol sensitivity analysis
  • Pearson correlation

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 30 آذر 1404
  • تاریخ دریافت: 20 شهریور 1404
  • تاریخ بازنگری: 14 مهر 1404
  • تاریخ پذیرش: 30 آذر 1404