Seznam zveřejnil svou neuronovou síť Small-E-Czech, poskytuje ji i ke komerčnímu využití

14. 10. 2021

Small-E-Czech - Seznam.cz - neuronová síť

Seznam.cz používá neuronovou síť „Smolíček“ (anglicky Small-E-Czech) například při řazení výsledků vyhledávání, pro opravu překlepů ve vyhledávacích dotazech nebo k detekci clickbaitových titulků v newsfeedu na své hlavní stránce.

Teď firma jazykový model, natrénovaný na datech Seznamu, zveřejnila k volnému použití (včetně komerčního využití). Stáhnout si jej můžete z GitHubu nebo HuggingFace.

TIP: Seznam vydává novou verzi webového prohlížeče, vylepšuje překlady stránek

Neuronová síť se podle Seznamu učila 20 dní na 250 GB textů. „Předučení probíhá tak, že se neuronové síti ukazují věty, v nichž byly některé tokeny nahrazeny jinými. Síť má pak pro každý token rozhodnout, jestli je původní. Pokud se zmýlí, váhy spojení mezi neurony v síti (je jich zhruba 14 milionů) se mírně upraví tak, aby se příště spíš trefila, a pokračuje se další větou,“ popisuje firma na blogu.

„V Seznamu jsme použili Small-E-Czech například jako vstup do modelu, který řadí výsledky vyhledávání. Podle našich měření víme, že jsme tak zvýšili kvalitu zobrazených výsledků v průměru o 4 %. Dodáváme pomocí něj také vektory pro dotazy a webové stránky do tzv. vektorového hledání. Přispěl ke zlepšení oprav překlepů v dotazech, které jsou díky chytřejším návrhům průměrně o 30 % rychlejší a jednotky procent lepší (v pokrytí a přesnosti),“ dodává.

Vstoupit do diskuse (1 názor)

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

David Slížek

Šéfredaktor Lupa.cz a externí spolupracovník Českého rozhlasu Plus. Dříve editor IHNED.cz, předtím Aktuálně.cz a Českého rozhlasu. Zaměřuje se na telekomunikace, umělou inteligenci i na média. Najdete ho na Twitteru nebo na LinkedIn.

Sdílet

Autor aktuality

David Slížek

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Seznam zveřejnil svou neuronovou síť Small-E-Czech, poskytuje ji i ke komerčnímu využití

Sdílet

Autor aktuality

David Slížek

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Čtěte dále

<img class="design-article-review__image" src="https://i.iinfo.cz/images//534/ilustracni-obrazek-thumb.jpg" alt="Test vyhledávačů pragmaticky (1.)"> Test vyhledávačů pragmaticky (1.)

<img class="design-article-review__image" src="https://i.iinfo.cz/images//534/ilustracni-obrazek-thumb.jpg" alt="Test vyhledávačů pragmaticky (2.)"> Test vyhledávačů pragmaticky (2.)

<img class="design-article-review__image" src="https://i.iinfo.cz/images//534/ilustracni-obrazek-thumb.jpg" alt="Najde si nový vyhledávač Microsoftu své uživatele?"> Najde si nový vyhledávač Microsoftu své uživatele?

<img class="design-article-review__image" src="https://i.iinfo.cz/images//534/ilustracni-obrazek-thumb.jpg" alt="Kam směřují vyhledávače?"> Kam směřují vyhledávače?

<img class="design-article-review__image" src="https://i.iinfo.cz/images//534/ilustracni-obrazek-thumb.jpg" alt="Podíl vyhledavačů na českém webu"> Podíl vyhledavačů na českém webu

Test vyhledávačů pragmaticky (1.)

Test vyhledávačů pragmaticky (2.)

Najde si nový vyhledávač Microsoftu své uživatele?

Kam směřují vyhledávače?

Podíl vyhledavačů na českém webu