Původem ruská softwarová společnost JetBrains, která má centrálu v Praze, vydala vlastní model umělé inteligence Mellum schopný generovat zdrojový kód. JetBrains už dříve nasadili Mellum v rámci svých aplikací pro vývojáře (programovací asistent Junie), nyní je ale dostupný samostatně na platformě Hugging Face, a to pod open source licencí Apache 2.0.
JetBrains model trénovali na 256 kartách Nvidia H200, zabralo to 20 dnů. Trénování proběhlo na datasetech včetně těch licencovaných z GitHubu a podobně. K trénování byly využity více než čtyři biliony tokenů a pracuje se se čtyřmi miliardami parametrů. Milion tokenů zhruba odpovídá 30 tisícům řádkům kódu.
JetBrains zatím vydali základní model a variantu pro Python. Modely pro další jazyky by měly být k dispozici v dohledné době. Mellum obecně podporuje jazyky Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust a Ruby.
Je ale nutné počítat s tím, že je nutné si s modely pohrát, respektive udělat fine tuning. Mellum podporuje supervised fine tuning (SFT) a reinforcement learning (RL) pro adaptaci na specifické aplikace.
Mellum je navržený pro integraci do vývojářských nástrojů typu IDE, programovacích asistentů nebo pro výzkum a vzdělávání. Detaily jsou zde.