Serdecznie zapraszam na kolejne spotkanie
Wydziałowego Seminarium Data Science,
które odbędzie się
21.12.2023 r. o godz. 14.15
w sali D102 Wydziału Matematyki i Informatyki UŁ
Referat pt.
Technika szkiców w estymacji podobieństwa tekstów
wygłosi
prof. dr hab. Szymon Grabowski,
Politechnika Łódzka, Instytut Informatyki Stosowanej, Wydział Elektrotechniki, Elektroniki, Informatyki i Automatyki PŁ
Streszczenie: Mimo tego, iż miary podobieństwa dokumentów (np. odległość Levenshteina, LCS) są znane i używane od dekad, to ich zastosowanie do znajdowania podobnych plików np. w dużych bazach genomów jest problematyczne z uwagi na (bardzo) wysokie wymagania obliczeniowe. Szkic (ang. sketch) jest formą mocno stratnej reprezentacji dokumentu, która jednak reprezentuje go wystarczająco dobrze do porównań: dwa podobne do siebie np. genomy zazwyczaj mają podobne szkice (i odwrotnie). Użyte słowo "zazwyczaj" można sprecyzować w odniesieniu do prawdopodobieństwa. Przedmiotem wykładu będzie przedstawienie podstawowych technik szkicowania dokumentów: MinHash, HyperLogLog, ich wybranych odmian, możliwych idei implementacyjnych i wybranych zastosowań.
Marek Majewski