Jojo, cosine similarity je "industry standard" a s některými klíčovými modifikacemi ji používám také. Daleko zajímavější mi ale přijde oblast samotného clusterování - algoritmů je mnoho, ale většinou mají buď ne příliš dobré výsledky nebo jsou neúnosně náročné na výkon.