Lecture: AI Systems that Learn by Doing. Autonomous Agents in Science and Medicine
-
10. prosince 2025
16:30 – 17:30 - F37/346
Posilující učení (RL) poskytuje rámec pro budování systémů umělé inteligence, které se učí prostřednictvím akce – zkoušením, pozorováním výsledků a zlepšováním. Na rozdíl od řízeného učení, kde jsou modelům sdělovány správné odpovědi, agenti RL objevují, co funguje, prostřednictvím důsledků svých rozhodnutí.
Tato přednáška představuje základy RL: Markovovy rozhodovací procesy, hodnotové funkce a Bellmanovy rovnice. Sledujeme cestu od iterace politiky – která vyžaduje známý model prostředí – k metodám bez modelu, které se učí přímo ze zkušeností. Porovnáváme metody Monte Carlo s učením časového rozdílu a dospíváme k Q-učení pro objevování optimálních politik. Nejprve ilustrujeme tyto myšlenky pomocí herních agentů, kde RL dosáhlo nadlidského výkonu prostřednictvím milionů simulovaných pokusů. Poté se ptáme: co se stane, když je pokus a omyl nebezpečný, nákladný nebo neetický?
Představujeme offline RL a imitační učení jako principiální přístupy pro tato nastavení, ilustrované dvěma aplikacemi ve vědě a medicíně: (1) AI Clinician, který se učí optimální léčbě sepse z historických záznamů JIP, a (2) InterRetro, který se učí plánovat chemické syntetické cesty prostřednictvím sebeimitaci.
Společně tyto příklady ukazují, jak lze princip „učení se praxí“ přizpůsobit i v případě, že experimentování v reálném světě není možné.
Sdílení události