Wielcy.pl: nowa wyszkiwarka, zerwanie pępowiny CD

Nadszedł czas, by serwis Wielcy.pl (Wielka Genealogia Minakowskiego) wydoroślał. Za trzy miesiące minie 7 lat od pierwszego wydania, na CD-ROM (wtedy pod tytułem Ci wielcy Polacy to nasza rodzina). Wydania ukazywały się co roku, a po trzecim wydaniu (w 2007 r.) umieściłem zawartość płyty na stronie Wielcy.pl: w ten sposób każdy posiadacz płyty CD-ROM mógł korzystać z niej online (teraz to się nazywa „w chmurze”). Czasy się zmieniają i płyty CD odchodzą w przeszłość: wiele typów komputerów nie potrafi ich w ogóle odtwarzać (tablety, netbooki, ultrabooki). Podjąłem więc decyzje, by nie wydawać kolejnego (siódmego) wydania na CD. Internet stał się dorosły!

Mogę więc w serwisie wprowadzić rzeczy, których nie byłem w stanie wprowadzić na CD. Przede wszystkim jest to nowa wyszukiwarka.

Nowa wyszukiwarka serwisu Wielcy.pl nie korzysta już z narzędzia GeneWeb (które dalej jest używane do rysowania wykresów). Została napisana od podstaw bezpośrednio w oparciu o bazę-matkę. Mogę w związku z tym pozwolić sobie na wbudowanie w nią wielu ciekawych wynalazków.

Oto przykładowy wynik wyszukiwania:

Niektóre charakterystyczne cechy nowej wyszukiwarki:

  • Wyszukiwarka wie, że nazwiska „Czartoryska” i „Czartoryski” to to samo i wszystkie wyniki grupuje razem.
  • Wyszukiwarka szuka też po drugim i trzecim imieniu, a także po przydomkach, przyrostkach, herbach itd., umieszcza je jednak w osobnej sekcji
  • Dodatkowo wyszukiwane są też formy podobnie brzmiące (obecnie: wg algorytmu soundex, ale to chyba będzie zmienione, bo np. soundex rozróżnia polskie litery, jak np. „ń” i „n”).
  • Gdy rozpoznane jest nazwisko, wyświetlane są wszystkie pierwsze imiona osób o danym nazwisku
  • Poza wyszukiwarką pełnotekstową jest też nowy indeks alfabetyczny.
  • Wyszukiwana pozycja podaje rodziców (a nie tylko małżonka, jak dotąd).
  • Wyszukiwarka wreszcie radzi sobie dobrze z samymi nazwiskami: wyszukując „Potocki” dostanę zarówno samych „Potockich”, jak i „Potockich z Potoka h. Pilawa (Srebrna)”, „Potockich h. Szreniawa” i całą masę innych odmian, wprowadzających niemałe zamieszanie.
  • Jeżeli szukana osoba jest bohaterem Polskiego słownika biograficznego, od razu widać, o kogo chodzi

Wyszukiwarkę testuję solidnie, znajduję też wciąż nowe rzeczy, które mógłbym ulepszyć, ale jeżeli znajdą Państwo tu coś jeszcze, to proszę o informacje.

AKTUALIZACJA 19 XII 2011: nowy algorytm podobieństwa

Zmieniłem mechanizm wyszukiwania podobnych. Nie jest to już algorytm Soundex, ale specjalnie do tego celu wymyślony algorytm mój własny.

W skrócie biorąc, polega on na tym, że między innymi:

  1. Zamieniam wszystkie znaki na alfabet łaciński (czyli Ł na L, Ś na S itd.)
  2. Sprowadzam wszytko do małych liter
  3. Sprowadzam wszystkie samogłoski do tej samej i usuwam ich powtórzenia
  4. Utożsamiam spółgłoski szczelinowe (s, z, c) i usuwam ich powtórzenia (tzn. sz=cc)
  5. Usuwam powtórzenia większości spółgłosek (zwłaszcza ll, nn)
  6. Usuwam samogłoskę końcową

Jest tam też trochę innych drobiazgów, ogólnie jednak system jest dopracowany tak, żeby znajdywał warianty, które są oczywiste, ale nie utożsamiał wszystkiego ze wszystkim. Stąd np. nazwisko Minakowski będzie utożsamione z formami: Manikowski, Minikowski, Minnikowski, Moniakowski, Monikowski, Manikowska, Minakowska, Monikowska, Minikowska, Minnikowska, Moniakowska, ale nie będzie utożsamione z formą „Mańkowski” ani „Minkowski”.

AKTUALIZACJA 19 XII 2011: wdrożenie na Sejm-Wielki.pl

Z duszą na ramieniu uruchamiam tę samą wyszukiwarkę w Genealogii Potomków Sejmu Wielkiego, gdzie jest trochę okrojona, ale jeżeli ktoś ma wykupiony abonament i zaloguje się przez Facebook, widzi to samo, co na Wielcy.pl.

Osoby niezalogowane widzą w wyszukiwarce ukryte te osoby, które nie są „potomkami Sejmu Wielkiego” — bo to w końcu Genealogia Potomków Sejmu Wielkiego.

Ten wpis został opublikowany w kategorii Genealogia. Dodaj zakładkę do bezpośredniego odnośnika.

Jedna odpowiedź na „Wielcy.pl: nowa wyszkiwarka, zerwanie pępowiny CD

  1. FJG pisze:

    Wspaniala sprawa…

    Jednak wrzucajac swoje imie i nazwisko nie oczekiwalem wyniku „brzmi podobnie” w postaci:
    Anna Feliksa Zielińska h. Ciołek

    i to tylko dlatego (jak przypuszczam), ze byla zona Grobickiego.

    Jak jednak wspomnialem wyzej – wspaniala sprawa!

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *