Fényképből generált videó a gépi tanulás következő trükkje

2016. szeptember 13. 11:30

Fényképekből jelzi előre a folytatást az idegháló. Hol jól, hol rosszul, egyes esetekben zavaros a végeredmény, a gép még nem érti, miről van szó.

2016. szeptember 13. 11:30
James Vincent
The Verge

„Ha embernek mutatunk egy képet, egész pontosan előrejelzi, mi fog történni utána. A bicikliző nő folytatja a biciklizést. A kutya elkapja a frizbit, és így tovább. Annyira alapadottság, hogy figyelembe sem vesszük az ezekhez az előrejelzésekhez használt hatalmas információmennyiséget, amellyel számítógépeket tanítunk ugyanerre. Pedig bebizonyosodott, hogy a gépi tanulás egyik kulcsfontosságú kihívásáról van szó.

MIT-kutatók próbálkoznak a probléma kezelésével, és figyelemreméltó eredményeket értek el. Speciálisan trenírozott ideghálóik videókká alakították a képeket, és a számítógép prognosztizálta a folytatást. A modell ugyan korlátozott (csak pár másodperces, gyakran szörnyű minőségű videók), de a gépi képzelet számára fontos lépés, és a komputerek is valamivel közelebb kerültek ahhoz, hogy a világot egy kicsit még inkább úgy értelmezzék, mint az ember.

Az idegháló a Flickr-ről letöltött több mint 2 millió videón gyakorolt. Négy jelenettípusba rendezték őket: golfpályák, strandok, vasútállomások, kórházak (kisbabák képeivel). A felvételeket stabilizálták, eltűntek a remegő kamerák. Az adatokból az idegháló nemcsak az eredetihez hasonló jeleneteket, gif-eket generált, hanem állóképekből is elkészítette a folytatást, lényegében előrejelezte, mi fog történni. Korlátozott mértékben, mert a pixelek potenciális változásait jósolta, és nem a jeleneteket értette meg.

Az eredményeket könnyű látni, és azt is, hogy a technológia hol elégtelen. A strandvideókon látjuk a hullámtörést, a vasútállomáson a modell tudja, hogy a vonat valószínűleg továbbmegy a kamera előtt. Viszont, ha egy ember golfpályán történő mozgását kell előrejelezni, semmi emberi nem lesz a végeredményben. Zavaros, maszatos, valótlan. A kutatók is megjegyzik, hogy a komputer prognózisa általában nem követi a »korrekt videót«, de legalább »a mozgások hihetők.«

Nehéz lesz túllépni ezeken a hihető, de egyértelműen kamuvideókon, viszont a kapcsolódó területek más gépitanulás-rendszerei komoly fejlődésen mentek keresztül, cselekedeteket, például kézfogást és ölelést jeleznek előre, sőt, a videókhoz illő hangokat is generálnak. Yann LeCun, a Facebook MI-csoport vezetője tavaly nyilatkozta, hogy jövőbeli mozgások generálása az előrejelző számítógépekhez vezető »kirakós játék része«, a videó vagy kép és lehetséges jövőjének igazi megértéséhez viszont sokkal több munka kell.

»Ha Hitchcock-filmet nézel, és megkérdezem, mi lesz 15 perc múlva, ki kell találnod, ki a gyilkos. A probléma megoldásához mindent tudni kell a világról és az emberi természetről. Ez érdekes benne« – mondta LeCun.”

az eredeti, teljes írást itt olvashatja el Navigálás

Kapcsolódó cikkek

Összesen 1 komment

A kommentek nem szerkesztett tartalmak, tartalmuk a szerzőjük álláspontját tükrözi. Mielőtt hozzászólna, kérjük, olvassa el a kommentszabályzatot.
Sorrend:
williams12
2016. szeptember 19. 14:13
Helló Vagyok férfi francia állampolgárságú politikus foglalkozó pénzügyi kölcsönök vagy rövid és hosszú távú magánbefektetések kezdve € 5000 € 80.000.000 senkinek komoly, megbízható és őszinte kívánó kölcsön. My kamatláb változik 2% -ról 3% attól függően, hogy a hitel összegét és időtartamát vissza a források, hogy különösen nem akarom, hogy megsértik a törvény uzsora. Kérjük, lépjen kapcsolatba velem (williamsdubois42@yahoo.fr) a jövőre nézve.
Jelenleg csak a hozzászólások egy kis részét látja. Hozzászóláshoz és a további kommentek megtekintéséhez lépjen be, vagy regisztráljon!

Ezek is érdekelhetik