Google запускає Magika 1.0: нова версія системи виявлення типів файлів

Google запускає Magika 1.0: нова версія системи виявлення типів файлів

Google представив Magika 1.0, першу стабільну версію своєї системи виявлення типів файлів на основі штучного інтелекту. Ця система вже використовується в масштабах Google-сервісів. Magika тепер пропонує переписаний двигун на основі Rust, значно розширену підтримку форматів і надшвидку продуктивність виявлення.

Проблеми виявлення типів файлів і рішення Magika

Виявлення типу файлу завжди було викликом у комп’ютерних технологіях. Існуючі інструменти, такі як класична утиліта file, покладаються на ручні евристики для виявлення форматів. Цей процес вимагає постійного оновлення правил і залишається крихким під впливом змін у структурах файлів.

Magika підходить до цієї проблеми інакше. В його основі лежить компактна модель глибинного навчання, розміром всього кілька мегабайт, навчена на мільйонах файлів. Ця модель розроблена для ефективної роботи навіть на одному процесорі.

Основні покращення в Magika 1.0

Внутрішні тестування Google показали, що система здатна ідентифікувати файли за мілісекунди з середньою точністю близько 99% по сотнях типів файлів. У новій версії Magika 1.0 представлені важливі покращення:

  • Підтримка більше 200 типів контенту (попередні версії мали близько 100).
  • Новий основний двигун, переписаний на Rust, забезпечує високу продуктивність і безпечність пам’яті.
  • Нативний командний клієнт на Rust, а також модулі Python і TypeScript для легшої інтеграції.
  • Покращена точність на складних текстових та програмних форматах (наприклад, розрізняння JSON та JSONL, C та C++).
  • Практично постійний час виявлення незалежно від розміру файлу: після завантаження моделі можна обробляти тисячі файлів з мінімальними затримками.

Використання Magika в Google та можливості для розробників

У Google Magika реалізована в таких сервісах, як Gmail, Drive і Safe Browsing. Тут вона обробляє сотні мільярдів файлів щотижня, направляючи їх до відповідних сканерів політик та безпеки. Завдяки відкритому коду, розробники та організації з інших компаній можуть скористатися тим же движком виявлення.

Як встановити Magika

Щоб встановити та почати використовувати Magika, користувачі можуть виконати просту команду в терміналі на Linux/macOS:

curl -LsSf https://securityresearch.google/magika/install.sh | sh

Для Windows надано скрипт установки PowerShell. Пакет magika також включає нативний Rust CLI клієнт. Для розробників Magika пропонує прив’язки в Python, JavaScript/TypeScript (через npm), Rust і бібліотеку Go в стадії розробки.

Додаткова інформація про Magika 1.0

Для ознайомлення з усіма змінами в новій версії Magika 1.0, відвідайте Google Open Source Blog. Щоб дізнатися більше про самі інструменти, перейдіть за посиланням.