Безпека Spark: чому це важливо для великих даних
Безпека Apache Spark: чому це важливо для аналізу великих даних
Усі погоджуються, що безпека має значення – але коли йдеться про аналіз великих даних з Apache Spark, це не просто один із пунктів списку. Відкрита Java-архітектура Spark створює особливі проблеми безпеки, які, якщо їх ігнорувати, можуть тихо розкрити конфіденційну інформацію та порушити важливі функції. На відміну від стандартного програмного забезпечення, дизайн Spark дозволяє користувацькому коду виконуватися з широким контролем над ресурсами кластера, що вимагає посилених заходів безпеки для уникнення несанкціонованого доступу та витоків інформації.
Забезпечення безпеки Spark є ключовим для підтримки безперервності бізнес-процесів підприємства, захисту даних у пам’яті та у стані спокою, а також для захисту від нових вразливостей, характерних для розподілених платформ обробки даних в пам’яті. На жаль, забезпечення безпеки Spark – завдання далеко не просте. У цій статті ми детальніше розглянемо, що робить його таким складним, та кроки, які підприємства можуть вжити для захисту своїх платформ великих даних.
Чому підприємства стикаються з проблемами безпеки Spark
Усунення вразливостей у Java-додатках дуже складне. Закриття CVE є фундаментальним для будь-якого програмного забезпечення, оскільки це один із найкращих способів зменшити ризик кібератак через відомі вразливості. Проте усунення CVE у Java-додатках, таких як Spark, є особливо складним з кількох причин.
Перша проблема – складність управління залежностями. Типовий Java-додаток може включати понад 100 сторонніх бібліотек, кожна з різними версіями та залежностями. Коли вразливість знаходиться в одній бібліотеці, її оновлення або відкат може порушити сумісність з іншими залежностями. Це заплутане плетиво залежностей може зробити деякі вразливості практично неможливими для виправлення без масштабного тестування.
Крім того, Java дуже багатослівна і широко використовується в корпоративних додатках. Тому часто вразливості впливають на мільйони Java-додатків по всьому світу, створюючи величезну поверхню атаки. Простота експлуатації та масштаб цих вразливостей ускладнюють їх повне усунення.
Дослідження показують, що затримки оновлень є основною причиною порушень безпеки в корпоративних середовищах. Наприклад, звіт IBM 2024 про вартість витоків даних показує, що відомі невиправлені вразливості спричинили збитки на $4,33 мільйона.
Ці проблеми суттєво впливають на Apache Spark. По-перше, Apache Spark має тисячі залежностей, тому стає складно виправити CVE, не порушивши сумісність. Ця величезна кількість залежностей також впливає на кількість і серйозність вразливостей.
Наші зусилля щодо забезпечення безпеки Spark
У Canonical ми вважаємо, що надійна безпека повинна бути невід’ємною частиною вашої платформи аналізу даних, а не другорядним елементом. З Charmed Spark ми прагнемо вирішити традиційну складність захисту корпоративних розгортань Spark.
Ми підтримуємо стабільний темп випуску – приблизно одну нову версію на місяць, одночасно підтримуючи дві основні версійні гілки, які на сьогодні є 3.4.x та 3.5.x. Така підтримка забезпечує стабільність для існуючих користувачів, дозволяючи при цьому постійно розробляти функції та вдосконалювати безпеку.
За минулий рік наше проактивне управління вразливостями допомогло усунути 10 критичних CVE, вирішити 84 вразливості високої серйозності та усунути 161 вразливість середньої серйозності у Spark та його залежностях. Ми також поширили цей підхід на пов’язані проекти, такі як Hadoop.
Canonical для безпеки ваших великих даних
Хоча складність Java-додатків та їхні розгалужені екосистеми залежностей створюють постійні проблеми, Charmed Apache Spark надає безпечно розроблений аналітичний рушій з відкритим кодом без рівня проблем вразливості, які зазвичай супроводжують такий великий проект на базі Java.
Щоб дізнатися більше про захист ваших операцій зі Spark, перегляньте наш вебінар:
- Розпочинаєте новий проект з великими даними? Зв’яжіться з нами
- Щоб дізнатися більше про рішення Canonical для великих даних, відвідайте canonical.com/data/spark.