<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">izvestswsu</journal-id><journal-title-group><journal-title xml:lang="ru">Известия Юго-Западного государственного университета</journal-title><trans-title-group xml:lang="en"><trans-title>Proceedings of the Southwest State University</trans-title></trans-title-group></journal-title-group><issn pub-type="ppub">2223-1560</issn><issn pub-type="epub">2686-6757</issn><publisher><publisher-name>ЮЗГУ</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.21869/2223-1560-2024-28-4-67-85</article-id><article-id custom-type="elpub" pub-id-type="custom">izvestswsu-1372</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>Информатика, вычислительная техника и управление</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>Computer science, computer engineering and IT managment</subject></subj-group></article-categories><title-group><article-title>Эффективность ETL-процесса для предиктивной аналитики</article-title><trans-title-group xml:lang="en"><trans-title>ETL Process Efficiency for Predictive Analytics</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Олейникова</surname><given-names>А. В.</given-names></name><name name-style="western" xml:lang="en"><surname>Oleynikova</surname><given-names>A. V.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Алла Владимировна Олейникова, аспирант</p><p>кафедра "Прикладная информатика"</p><p>414056; ул. Татищева, д.16; Астрахань</p></bio><bio xml:lang="en"><p>Alla V. Oleynikova, Post-Graduate Stugent</p><p>Applied Informatics Department</p><p>414056; 16 Tatishcheva str.; Astrakhan</p></bio><email xlink:type="simple">a.oleynikova.astu@mail.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Бондарева</surname><given-names>И. О.</given-names></name><name name-style="western" xml:lang="en"><surname>Bondareva</surname><given-names>I. O.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Ирина Олеговна Бондарева, кандидат технических наук, доцент,завкафедрой</p><p>кафедра "Прикладная информатика"</p><p>414056; ул. Татищева, д.16; Астрахань</p></bio><bio xml:lang="en"><p>Irina O. Bondareva, Cand. of Sci. (Engineering),Associate Professor, Head of Department</p><p>414056; 16 Tatishcheva str.; Astrakhan</p></bio><email xlink:type="simple">orange8@mail.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Олейников</surname><given-names>А. А.</given-names></name><name name-style="western" xml:lang="en"><surname>Oleynikov</surname><given-names>A. A.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Александр Александрович Олейников, кандидат технических наук, доцент</p><p>кафедра "Прикладная информатика"</p><p>414056; ул. Татищева, д.16; Астрахань</p></bio><bio xml:lang="en"><p>Aleksandr A. Oleynikov, Cand. of Sci. (Engineering), Associate Professor</p><p>Applied Informatics Department</p><p>414056; 16 Tatishcheva str.; Astrakhan</p></bio><email xlink:type="simple">ale15101338@yandex.ru</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>Астраханский государственный технический университет</institution></aff><aff xml:lang="en"><institution>Astrakhan State Technical University</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2024</year></pub-date><pub-date pub-type="epub"><day>07</day><month>04</month><year>2025</year></pub-date><volume>28</volume><issue>4</issue><fpage>67</fpage><lpage>85</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Олейникова А.В., Бондарева И.О., Олейников А.А., 2025</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="ru">Олейникова А.В., Бондарева И.О., Олейников А.А.</copyright-holder><copyright-holder xml:lang="en">Oleynikova A.V., Bondareva I.O., Oleynikov A.A.</copyright-holder><license xml:lang="ru" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>Данная работа распространяется под лицензией Creative Commons Attribution 4.0.</license-p></license><license xml:lang="en" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://izvestswsu.elpub.ru/jour/article/view/1372">https://izvestswsu.elpub.ru/jour/article/view/1372</self-uri><abstract><sec><title>   Цель исследования</title><p>   Цель исследования. В настоящей работе исследуется эффективность различных методов обработки пропущенных значений в датафреймах применительно к задачам предобработки данных в рамках предиктивной аналитики. В качестве тестовых данных используются три открытых датасета, которые содержат информацию о характеристиках зданий, метеорологических условиях и энергопотреблении.</p><p>   Цель исследования состоит в выявлении наиболее эффективного метода для предобработки данных в процессе ETL для решения задач предиктивной аналитики.</p></sec><sec><title>   Методы</title><p>   Методы. В работе происходит объединение датафреймов из каждого датасета и анализ стандартных методов модуля Pandas, высокоуровневой библиотеки языка Python, таких как прямое присваивание, использование индексаторов, а также метод fillna со словарем. Кроме того, разработан модуль на языке Cython, С-подобном языке программирования, для оптимизации процесса заполнения пропущенных значений, произведена оценка производительности каждого метода.</p></sec><sec><title>   Результаты</title><p>   Результаты. Результаты демонстрируют, что прямое присваивание является наиболее эффективным методом с точки зрения производительности в Pandas. Применение Cython, хотя теоретически и способно ускорить вычисления, в данном случае показало значительное снижение производительности из-за накладных расходов на преобразование данных и взаимодействие между Python и Cython. Профилирование кода подтвердило, что местом с недостаточной производительностью являются операции Pandas, а не выполнение Cython кода.</p></sec><sec><title>   Выводы</title><p>   Выводы. Таким образом, для большинства задач ETL рекомендуется использовать оптимизированные методы Pandas, а Cython следует применять только в случаях критической необходимости повышения производительности и при тщательной оптимизации кода для минимизации накладных расходов, так как написание кода, аналогичного Pandas, потребует значительных ресурсов, в том числе и для его оптимизации, что в большинстве случаев является избыточным.</p></sec></abstract><trans-abstract xml:lang="en"><sec><title>   Purpose of research</title><p>   Purpose of research. This paper investigates the effectiveness of different missing value handling methods in dataframes for data preprocessing tasks in predictive analytics. Three open datasets containing information on building characteristics, meteorological conditions, and energy consumption are used as test data.</p><p>   The goal of the study is to identify the most effective method for data preprocessing in the ETL process for solving predictive analytics problems.</p></sec><sec><title>   Methods</title><p>   Methods. The paper combines dataframes from each dataset and analyzes standard methods of the Pandas module, a high-level library of the Python language, such as direct assignment, the use of indexers, and the fillna method with a dictionary. In addition, a module in Cython, a C-like programming language, is developed to optimize the process of filling missing values, and the performance of each method is evaluated.</p></sec><sec><title>   Results</title><p>   Results. The results demonstrate that direct assignment is the most effective method in terms of performance in Pandas. Using Cython, although theoretically capable of speeding up calculations, in this case showed a significant decrease in performance due to the overhead of data transformation and interaction between Python and Cython. Code profiling confirmed that the place with insufficient performance is Pandas operations, not Cython code execution.</p></sec><sec><title>   Conclusion</title><p>   Conclusion. Thus, for most ETL tasks, it is recommended to use optimized Pandas methods, and Cython should be used only in cases of critical need for performance improvement and with careful optimization of the code to minimize overhead, since writing code similar to Pandas will require significant resources, including for its optimization, which in most cases is redundant.</p></sec></trans-abstract><kwd-group xml:lang="ru"><kwd>предиктивная аналитика</kwd><kwd>пропущенные значения</kwd><kwd>профилирование</kwd><kwd>предобработка данных</kwd><kwd>pandas</kwd><kwd>cython</kwd><kwd>etl</kwd></kwd-group><kwd-group xml:lang="en"><kwd>predictive analytics</kwd><kwd>missing values</kwd><kwd>profiling</kwd><kwd>data preprocessing</kwd><kwd>pandas</kwd><kwd>cython</kwd><kwd>etl</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Гончар А. А. Использование предиктивной аналитики для повышения эффективности бизнеса // Актуальные исследования. 2023. № 50-4(180). С. 22-46.</mixed-citation><mixed-citation xml:lang="en">Gonchar A. A. Using predictive analytics to improve business efficiency. Aktual`ny`e issledovaniya = Current research. 2023; (50-4): 22-46 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Громов Н. Д., Платошин А. И. Сравнительный анализ средств и платформ для автоматизации ETL-процессов в современных хранилищах данных // Международный журнал гуманитарных и естественных наук. 2023. № 11-4(86). С. 46-48. DOI: 10.24412/2500-1000-2023-11-4-46-48.</mixed-citation><mixed-citation xml:lang="en">Gromov N. D. Comparative analysis of tools and platforms for automating ETL processes in modern data warehouses. Mezhdunarodnyi zhurnal gumanitarnykh i estestvennykh nauk = International journal of humanitarian and natural sciences. 2023; 11-4: 46-48. DOI: 10.24412/2500-1000-2023-11-4-46-48 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Дрянкова Д. А. Визуализация данных с помощью библиотек Pandas и Matplotlib для языка программирования Python // Дневник науки. 2023. № 6(78). DOI: 10.51691/2541-8327_2023_6_10.</mixed-citation><mixed-citation xml:lang="en">Dryankova D. A. Data visualization using Pandas and Matplotlib libraries for the Python programming language. Dnevnik nauki = Science Diary. 2023; 6. (In Russ.). DOI: 10.51691/2541-8327_2023_6_10</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Дьяконов Н. А., Логунова О. С. Системы управления технологическим процессом на основе предиктивной аналитики: проектирование // Электротехнические системы и комплексы. 2021. № 1(50). С. 58-64. DOI: 10.18503/2311-8318-2021-1(50)-58-64.</mixed-citation><mixed-citation xml:lang="en">Dyakonov N. A., Logunova O. S. Process control systems based on predictive analytics: design. Elektrotekhnicheskie sistemy i kompleksy = Electrical systems and complexes. 2021; (1): 58-64. (In Russ.). DOI: 10.18503/2311-8318-2021-1(50)-58-64</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Ильичев В. Ю., Юрик Е. А. Анализ массивов данных с использованием библиотеки Pandas для Python // Научное обозрение. Технические науки. 2020. № 4. С. 41-45.</mixed-citation><mixed-citation xml:lang="en">Ilyichev V. Yu., Yurik E. A. Analysis of data arrays using the Pandas library for Python. Nauchnoe obozrenie. Texnicheskie nauki. = Scientific Review. Technical sciences. 2020; (4): 41-45 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Лескова В. Ю., Соловьев В. А. Анализ методов ETL // Наука и образование: актуальные исследования и разработки : сборник статей III Всероссийской научно-практической конференции, Чита, 29–30 апреля 2020 года. Чита: Забайкальский государственный университет, 2020. С. 36-40.</mixed-citation><mixed-citation xml:lang="en">Leskova V. Yu., Solov'ev V. A. Analysis of ETL methods. In: Science and education: current research and development . Collection of articles of the III All-Russian scientific and practical conference, Chita, April 29-30, 2020. Chita: Zabaikal'skii gosudarstvennyi universitet; 2020. P. 36-40 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Носырева А. А., Абрамов В. И. Предиктивная аналитика - основа для цифровой трансформации компаний // Актуальные проблемы экономики, учета, аудита и анализа в современных условиях : сборник научных статей Международной научно-практической конференции. Курск, 28–29 апреля 2021 года. Курск: Курский государственный университет, 2021. С. 179-182.</mixed-citation><mixed-citation xml:lang="en">Nosyreva A. A., Abramov V. I. Predictive analytics - the basis for the digital transformation of companies. In: Current problems of economics, accounting, auditing and analysis in modern conditions. Collection of scientific articles of the International Scientific and Practical Conference, Kursk, 28–29 April 2021. Kursk: Kursk State University; 2021. P. 179-182 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Соломонов А. А. Оптимизация ETL-процессов для больших данных // Вестник науки. 2024. Т. 3, № 9(78). С. 390-396.</mixed-citation><mixed-citation xml:lang="en">Solomonov A. A. Optimization of ETL processes for big data. Vestnik nauki = Bulletin of Science. 2024; 3(9): 390-396 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Кисляков А. Н. Отбор признаков для использования в моделях предиктивной аналитики внешнеэкономической деятельности регионов // Прикладная математика и вопросы управления. 2022. № 1. С. 176-195. DOI: 10.15593/2499-9873/2022.1.09.</mixed-citation><mixed-citation xml:lang="en">Kislyakov A. N. Selection of features for use in predictive analytics models of foreignт economic activity of regions. Prikladnaya matematika i voprosy upravleniya = Applied Mathematics and Management Issues. 2022; (1): 176-195. (In Russ.). DOI: 10.15593/2499-9873/2022.1.09.</mixed-citation></citation-alternatives></ref><ref id="cit10"><label>10</label><citation-alternatives><mixed-citation xml:lang="ru">Судариков Г. В., Ашмаров И. А. Использование библиотеки Pandas для анализа данных // Мир образования - образование в мире. 2023. № 1(89). С. 184-188. DOI: 10.51944/20738536_2023_1_184.</mixed-citation><mixed-citation xml:lang="en">Sudarikov G. V., Ashmarov I. A. Using the Pandas library for data analysis. Mir obrazovaniya - obrazovanie v mire = The world of education - education in the world. 2023; (1): 184-188. (In Russ.). DOI: 10.51944/20738536_2023_1_184</mixed-citation></citation-alternatives></ref><ref id="cit11"><label>11</label><citation-alternatives><mixed-citation xml:lang="ru">Терешина В. В. Применение систем предиктивной аналитики и предикативного моделирования // Инновационное развитие экономики. 2022. № 5(71). С. 243-246. DOI: 10.51832/2223798420225243.</mixed-citation><mixed-citation xml:lang="en">Tereshina V. V. Application of predictive analytics and predictive modeling systems. Innovatsionnoe razvitie ekonomiki = Innovative development of the economy. 2022; (5): 243-246. (In Russ.). DOI: 10.51832/2223798420225243.</mixed-citation></citation-alternatives></ref><ref id="cit12"><label>12</label><citation-alternatives><mixed-citation xml:lang="ru">Терентьева В. С., Логинова И. М., Эшелиоглу Р. И. Работа с датами в pandas // Научные исследования молодых ученых : материалы I Международной научно-практической конференции, посвященной памяти д. э. н., профессора Л.М. Рабиновича. Казань, 25–26 февраля 2022 года. Казань: Казанский государственный аграрный университет, 2022. Т. 2. С. 285-291.</mixed-citation><mixed-citation xml:lang="en">Terentyeva V. S., Loginova I. M., Eshelioglu R. I. Working with dates in pandas. In: Scientific research of young scientists : Proceedings of the I International scientific and practical conference dedicated to the memory of Doctor of Economics, Professor L. M. Rabinovich, Kazan, February 25-26, 2022. Kazan: Kazanskii gosudarstvennyi agrarnyi universitet. 2022; 2. P. 285-291 (In Russ.).</mixed-citation></citation-alternatives></ref><ref id="cit13"><label>13</label><citation-alternatives><mixed-citation xml:lang="ru">Using SAP Predictive Analytics to Analyze Individual Student Profiles in LMS Moodle / A. N. Ambrajei, N. M. Golovin, A. V. Valyukhova, N. A. Rybakova // Communications in Computer and Information Science. 2022. Vol. 1539. P. 66-77. DOI: 10.1007/978-3-030-95494-9_6.</mixed-citation><mixed-citation xml:lang="en">Ambrajei A. N., Golovin N. M., Valyukhova A. V., Rybakova N. A. Using SAP Predictive Analytics to Analyze Individual Student Profiles in LMS Moodle. Communications in Computer and Information Science, 2022; 1539: 66-77. DOI: 10.1007/978-3-030-95494-9_6.</mixed-citation></citation-alternatives></ref><ref id="cit14"><label>14</label><citation-alternatives><mixed-citation xml:lang="ru">Bushuev S. Application of AI for monitoring and optimizing IT infrastructure: economic prospects for implementing predictive analytics in enterprise operations // International Journal of Humanities and Natural Sciences. 2024. No. 8-3(95). P. 125-129. DOI: 10.24412/2500-1000-2024-8-3-125-129.</mixed-citation><mixed-citation xml:lang="en">Bushuev S. Application of AI for monitoring and optimizing IT infrastructure: economic prospects for implementing predictive analytics in enterprise operations. International Journal of Humanities and Natural Sciences. 2024: (8-3): 125-129. DOI: 10.24412/2500-1000-2024-8-3-125-129.</mixed-citation></citation-alternatives></ref><ref id="cit15"><label>15</label><citation-alternatives><mixed-citation xml:lang="ru">Comparative Analysis of ETL Tools in Big Data Analytics / A. Qaiser, M. U. Farooq, S. M. Nabeel Mustafa, N. Abrar // Pakistan Journal of Engineering and Technology. 2023. Vol. 6, no. 1. P. 7-12. DOI: 10.51846/vol6iss1pp7-12.</mixed-citation><mixed-citation xml:lang="en">Qaiser A., Farooq M. U., Nabeel Mustafa S. M., Abrar N. Comparative Analysis of ETL Tools in Big Data Analytics. Pakistan Journal of Engineering and Technology. 2023; 6 (1): 7-12. DOI: 10.51846/vol6iss1pp7-12.</mixed-citation></citation-alternatives></ref><ref id="cit16"><label>16</label><citation-alternatives><mixed-citation xml:lang="ru">Singh, M. M. Extraction Transformation and Loading (ETL) of Data Using ETL Tools // International Journal for Research in Applied Science and Engineering Technology. 2022. Vol. 10, no. 6. P. 4415-4420. DOI: 10.22214/ijraset.2022.44939.</mixed-citation><mixed-citation xml:lang="en">Singh M. M. Extraction Transformation and Loading (ETL) of Data Using ETL Tools. International Journal for Research in Applied Science and Engineering Technology. 2022; 10(6): 4415-4420. DOI: 10.22214/ijraset.2022.44939.</mixed-citation></citation-alternatives></ref><ref id="cit17"><label>17</label><citation-alternatives><mixed-citation xml:lang="ru">Prepare and analyze taxation data using the Python Pandas library / M. Vagizov, A. Potapov, K. Konzhgoladze, et al. // IOP Conference Series: Earth and Environmental Science: 6, Politics, Industry, Science, Education. St. Petersburg; 2021. P. 1-8. DOI: 10.1088/1755-1315/876/1/012078.</mixed-citation><mixed-citation xml:lang="en">Vagizov M., Potapov A., Konzhgoladze K., et al. Prepare and analyze taxation data using the Python Pandas library. IOP Conference Series: Earth and Environmental Science: 6, Politics, Industry, Science, Education. St. Petersburg, May 26–28, 2021, St. Petersburg; 2021. P. 1-8. DOI: 10.1088/1755-1315/876/1/012078.</mixed-citation></citation-alternatives></ref><ref id="cit18"><label>18</label><citation-alternatives><mixed-citation xml:lang="ru">Godé C., Brion S. The affordance-actualization process of predictive analytics: Towards a configurational framework of a predictive policing system // Technological Forecasting and Social Change. 2024. Vol. 204. 123452 P. DOI: 10.1016/j.techfore.2024.123452.</mixed-citation><mixed-citation xml:lang="en">Godé C., Brion S. The affordance-actualization process of predictive analytics: Towards a configurational framework of a predictive policing system. Technological Forecasting and Social Change. 2024; 204:123452. DOI: 10.1016/j.techfore.2024.123452.</mixed-citation></citation-alternatives></ref><ref id="cit19"><label>19</label><citation-alternatives><mixed-citation xml:lang="ru">Identification of Critical States of Technological Processes Based on Predictive Analytics Methods / S. M. Kovalev, I. A. Olgeizer, A. V. Sukhanov, K. I. Kornienko // Automation and Remote Control. 2023. Vol. 84, no. 4. С. 424-433. DOI: 10.1134/S0005117923040100.</mixed-citation><mixed-citation xml:lang="en">Kovalev S. M., Olgeizer I. A., Sukhanov A. V., Kornienko K. I. Identification of Critical States of Technological Processes Based on Predictive Analytics Methods. Automation and Remote Control. 2023; 84 (4): 424-433. DOI: 10.1134/S0005117923040100.</mixed-citation></citation-alternatives></ref><ref id="cit20"><label>20</label><citation-alternatives><mixed-citation xml:lang="ru">Software Solution for the Implementation of a Predictive Analytics System for Investment Instruments / Н. А. Мамедова, О. В. Староверова, А. М. Епифанов [et al.] // WSEAS Transactions on Systems and Control. 2023. Vol. 18. P. 18-25. DOI: 10.37394/23203.2022.18.2.</mixed-citation><mixed-citation xml:lang="en">Mamedova N. A., Staroverova O. V., Epifanov A. M., et al. Software Solution for the Implementation of a Predictive Analytics System for Investment Instruments. WSEAS Transactions on Systems and Control. 2023; 18: 18-25. DOI: 10.37394/23203.2022.18.2.</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
