KIT Hírlevél A Kongresszusi Könyvtár crowdsourcinggal (használóinak tudásával) tanítja a gépi tanulási eszközét (olvasóink szavazatára)

Katalógus-alapú qr-es könyvajánló a könyvespolcon

A Kongresszusi Könyvtár crowdsourcing-gal (használóinak tudásával) tanítja a gépi tanulás eszközét (olvasóink szavazatára)

Megjelent egy riport a Kongresszusi Könyvtár gépi tanulással folytatott kezdeményezéséről. Egy projekt keretében a könyvtár innovatív részlege bevonta a használókat, hogy digitális gyűjteményének egy részét dolgozzák fel a gépi tanuló algoritmust is segítő formában.
A projekt (Humans-in-the-Loop, röviden HITL) végére egyúttal egy keretrendszer is elkészült a közösségi támogatást (crowdsourcing) használó gépi tanulásról. A módszertan kidolgozásába több szakértőt bevontak. Vizsgálták, milyen módon lehet a két területet összekötni. Ezáltal a használhatóságot, kereshetőséget fejleszteni és a felhasználókat jobban elkötelezni a digitális gyűjtemények mellett. A közzétett eredmények más könyvtárak és kulturális intézmények számára is használhatók.

A gépi tanulás segíthet feldolgozni az adatokat olyan mértékben, amire a szakértő csapatok nehezen lennének képesek a nagy mennyiségű adat miatt. De a dobozos piaci megoldások nem működtek, mert az emberi szakértelem fontos a kulturális örökség képeinek és szövegeinek elemzésekor. A gépek emberi tanítása viszont bevált a projektben.
Egyrészt a felhasználók összeállíthatják a tanuló algoritmus számára az adatokat. Másrészt korrigálhatják a gépi tanulás kezdeti eredményeit, amelyből az algoritmus szintén tanul. A fejlesztők három fontos megállapítást tettek a projektben:
- A felhasználóknak olyan tartalmat kell adni, amihez közel érzik magukat.
- A gyűjteményből kikerülő adatoknál figyelembe kell venni az adatvédelmi szempontokat.
- Olyan gyűjteményeket kell a közösséggel elemeztetni, amely széles körben elérhető. A folyamat más projektekben is használható lesz. Az eredményként felhasználható adatok a gyűjtemény felfedezhetőségét támogatják.

A gyűjteményválasztást szavazás előzte meg. Plusz egy workshopon sorra vették az elemzést végző felhasználók, az olvasók és a dokumentumkészítők előítéleteinek torzító hatásait is. Végül a mikrofilmről digitalizált, 15 államra kiterjedő, az egész 20. századot lefedő Telefonkönyv-gyűjteményt választották ki a közösségi elemzéshez. Ezt gyakran használják, például családfa- és jogi kutatáshoz. A csapat használati eseteket is kidolgozott, hogy a választható gyűjtemények közül a felhasználók mit és mi miatt fognak majd igénybe venni. Azaz: melyik éri majd meg a ráfordított erőforrást?
A gépi tanulás szempontjából előnyt jelentett, hogy a telefonkönyvek nagyrészt egységes formában jelentek meg. Az adatok elég strukturáltak a teszteléshez, viszont nem olyan bonyolultak, hogy ne lehetne befejezni. Az önkéntes csapatok azonosították az egyes információtípusokat, pl. üzleti csoportokat, hirdetéseket, a telefonos tippeket. Minden típusról leiratokat készítettek, hogy a gépi tanuló algoritmusnak mintát adjanak a feladat befejezéséhez. A teljes riport: link (ref.: Habók Lilla)

Hírforrás: Library Journal
2022. január 25. • Továbbküldöm a hírt
Link e hírhez:

http://www.kithirlevel.hu/index.php?kh=a_kongresszusi_konyvtar_crowdsourcinggal_hasznaloinak_tudasaval_tanitja_a_gepi_tanulasi_eszkozet_olvasoink_szavazatara

Szavazás

KIT hírlevél évfolyamok

2024

Gy. i. k.

A Kongresszusi Könyvtár crowdsourcing-gal (használóinak tudásával) tanítja a gépi tanulás eszközét (olvasóink szavazatára)

Feliratkozás

KIT - hírcsokrok

Hírlevélről