ढलान पर साइकिल, और सीखती मशीन का छोटा सा नियम

ढलान लंबी थी, साइकिल की रफ्तार अपने आप बढ़ रही थी। एकदम जोर से ब्रेक दबाऊँ तो पहिया फिसल सकता था, और ब्रेक न लगाऊँ तो नीचे जाकर टक्कर का डर। तो मैंने छोटा-छोटा दबाया, बार-बार, ताकि रफ्तार काबू में रहे और चलना भी जारी रहे।

ऐसी ही मुसीबत तब होती है जब कोई सीखती मशीन एक ही बार में अपना बर्ताव बहुत बदल दे। सीखती मशीन बस इतना करती है कि काम चुनती है, फिर देखती है क्या ठीक चला, और खुद को थोड़ा बदलती है। बदलाव बहुत बड़ा हो तो चीज़ें तेजी से बिगड़ सकती हैं, जैसे ब्रेक खींचते ही फिसलन।

नया खयाल सीधा था: हर बार बदलाव पर एक छोटी सी सीमा। मशीन देखती है कि अभी वह कोई काम चुनने की कितनी संभावना रखती है, और पहले कितनी रखती थी। अगर फर्क उस सीमा से बाहर धकेले, तो बाहर वाला धक्का गिना ही नहीं जाता। साइकिल में ये रफ्तार की उछाल जैसा है, और सीमा वैसी जैसे ब्रेक लीवर को बस थोड़ी दूरी तक ही जाने देना। सीख यही कि एक कदम में बहुत दूर मत जाओ।

चलते-चलते मशीन हाल की मिली सीख को जमा करती है, फिर उसी पर कई बार नजर डालकर छोटे कदमों में खुद को सुधारती है। बिना सीमा के, वही सीख बार-बार देखने पर मशीन जरूरत से ज्यादा मुड़ सकती है, जैसे बार-बार ब्रेक झटके से खींचना। सीमा लगी हो तो ज्यादा धक्का लगाने का फायदा कट जाता है, तो सुधार होता रहता है पर जोखिम वाली छलांग नहीं लगती।

एक दूसरा सहारा भी आजमाया गया: जैसे-जैसे नया बर्ताव पुराने से दूर जाए, वैसा-वैसा एक बोझ बढ़ता जाए, और उस बोझ को बीच रास्ते में ही ठीक किया जाए। ये वैसा है जैसे ब्रेक इतना होशियार हो कि ज्यादा दबाने पर खुद ही जोर से विरोध करे, और आप उसे चलते-चलते मिलाते रहें। कई मुश्किल कामों में साधी हुई सीमा वाला तरीका ज्यादा भरोसेमंद लग सकता है।

ढलान पर मैंने देखा कि छोटा-छोटा ब्रेक दबाने से साइकिल सीधी रही, और रफ्तार डराने वाली नहीं बनी। वही बात मशीन में भी बैठती है: वही हाल की सीख कई बार काम आती है, क्योंकि हर बार का बदलाव सीमित रहता है। फर्क बस इतना है कि मशीन रफ्तार नहीं नापती, मशीन अपने फैसलों के बदलने की मात्रा संभालती है।