Rspamd 4.0: Значні зміни в системі фільтрації спаму

Rspamd, широко використовувана система фільтрації спаму з відкритим кодом для поштових серверів, шлюзів та систем безпеки, випустила версію 4.0. Ця версія вводить суттєві архітектурні зміни, нові протоколи та покращені можливості виявлення.

Новий протокол checkv3 для покращення обробки запитів

Однією з ключових новинок є протокол checkv3, доступний через точку доступу /checkv3. Він замінює класичну обробку запитів на вхід з multipart/form-data і виходи з multipart/mixed. Протокол підтримує структуровані метадані у форматах JSON або Msgpack, пропонує опціональне стиснення zstd і дозволяє обробку відповідей без копіювання. Включити протокол можна за допомогою rspamc --protocol-v3 або --msgpack.

Покращення в обробці моделей

Зовнішню залежність libfasttext замінено на вбудовану реалізацію на основі mmap. Моделі Fasttext тепер діляться між робочими процесами за допомогою спільної пам’яті, що значно зменшує використання пам’яті. Існуючі моделі .bin та .ftz залишаються сумісними.

Нове виявлення фішингу та навчання

Версія Rspamd 4.0 додає багатооблікові нечіткі хеші, які дозволяють одному хешу відповідати кільком правилам. Також було впроваджено виявлення HTML фішингу для ідентифікації повторно використовуваних шаблонів фішингу з різними доменами призначення. Обробка конфігурацій тепер підтримує шаблони, сумісні з Jinja2, через двигун Lupa.

Зміни в інфраструктурі та проксі

Серед інфраструктурних змін варто згадати заміну Jump Hash на Ring Hash (Ketama) для забезпечення передбачуваного перерозподілу ключів у шарованих середовищах, що мінімізує перешкоди під час зміни сервісів. Для установок, які використовують шарований Redis для класифікації Bayes, необхідно запустити rspamadm statistics_dump migrate перед оновленням, щоб уникнути проблем з відображенням даних.

Розширені можливості нейронної підсистеми

Нейронна підсистема тепер підтримує зовнішні попередньо навчена моделі та постачальників векторів вбудовування, а також розширені можливості навчання та класифікації. Класифікація Bayes також отримує підтримку багатокласового розподілу, виходячи за межі традиційної категоризації спаму та хобі.

Інші вдосконалення та зміни

Серед інших покращень – гнучка платформа для кешування Hyperscan із асинхронною компіляцією, експорт структурованих метаданих зі стисненням, генерація UUID v7 для кожного завдання та покращене парсинг PDF і валідація заголовків.

Значні зміни в обробці контенту

У Rspamd 4.0 також є кілька важливих змін. URL-адреси контенту тепер включені за замовчуванням в аналізі повідомлень. Варіант ssl = true для робочих процесів був видалений, а перевірки репутації SenderScore відключені за замовчуванням. Варто зауважити, що обробка DKIM тепер строго дотримується поведінки RFC, що може вплинути на результати валідації для неправильно оформлених підписів.

Для додаткової інформації, перегляньте оголошення або ознайомтеся з чangelog проекту на GitHub.