Seznam.cz používá neuronovou síť „Smolíček“ (anglicky Small-E-Czech) například při řazení výsledků vyhledávání, pro opravu překlepů ve vyhledávacích dotazech nebo k detekci clickbaitových titulků v newsfeedu na své hlavní stránce.
Teď firma jazykový model, natrénovaný na datech Seznamu, zveřejnila k volnému použití (včetně komerčního využití). Stáhnout si jej můžete z GitHubu nebo HuggingFace.
Neuronová síť se podle Seznamu učila 20 dní na 250 GB textů. „Předučení probíhá tak, že se neuronové síti ukazují věty, v nichž byly některé tokeny nahrazeny jinými. Síť má pak pro každý token rozhodnout, jestli je původní. Pokud se zmýlí, váhy spojení mezi neurony v síti (je jich zhruba 14 milionů) se mírně upraví tak, aby se příště spíš trefila, a pokračuje se další větou,“ popisuje firma na blogu.
„V Seznamu jsme použili Small-E-Czech například jako vstup do modelu, který řadí výsledky vyhledávání. Podle našich měření víme, že jsme tak zvýšili kvalitu zobrazených výsledků v průměru o 4 %. Dodáváme pomocí něj také vektory pro dotazy a webové stránky do tzv. vektorového hledání. Přispěl ke zlepšení oprav překlepů v dotazech, které jsou díky chytřejším návrhům průměrně o 30 % rychlejší a jednotky procent lepší (v pokrytí a přesnosti),“ dodává.