За машинното обучение и достигането до обективни изводи, вижте какво сподели един от лекторите на Astea Conference: Practical Magic
Статистиката е много мощен инструмент. Тя е в основата на машинното самообучение, което може да постига впечатляващи резултати. Също така с нея може да се докаже връзка между раждаемостта и броя на щъркелите в дадена държава. Как злоупотребяваме със статистиката, когато искаме да докажем тезата си? Как машинното самообучение се учи на глупости, когато не отчитаме как работи статистиката? Тези въпроси ще засегне Екатерина Михайлова, програмист и основател на стартъп, по време на презентацията си в тазгодишното издание на Astea Conference: Practical Magic.
За пресечните точки между статистиката и машинното обучение вижте какво сподели тя пред екипа на Economy.bg:
Кой е най-ранният Ви спомен, свързан със статистика и какво Ви накара да заобичате тази математическа дисциплина?
Втори курс по "Увод в обработката на естествени езици". Разглеждахме различни подходи към изкуствен интелект и статистическите бяха най-интересни. Резултатите ми се виждаха магически - машини имитираха хора по невероятен начин благодарение на статистика. Малкият ѝ брат - вероятностите, също са доста интересни. Те имат и доста по-всеобхватно приложение в нашия живот и постоянно биват използвани грешно в политически спорове, от доктори, от адвокати, от учени. Това ме накара да се влюбя във вероятностите и статистиката - те са приложна магия. Вълшебни са, но намират приложение във всички сфери на нашия живот.
Ако трябваше да обясните на дете какво е „статистическа грешка“, как бихте подходили?
Ако през живота си си ял само 2 ябълки и двете са били червени, ще смяташ, че ябълките могат да бъдат само червени. Ако следващата ябълка, която изядеш е жълта ще смяташ, че на света има двойно по-малко от техния вид. Колкото повече ябълки ядеш, толкова по-добра представа ще имаш за това как са разпределени ябълките по цвят. Но винаги ще си малко в грешка, дори да си изял хиляди. Тази грешка може да бъде изчислена в зависимост от броя ябълки, който си изял - колкото повече ябълки си изял, толкова по-малка е грешката.
Каква е връзката между статистиката и машинното самообучение?
Методите за машинно самообучение се опитват да разберат как изглежда светът по това какво се наблюдава в ограничено количество данни. Това е и една от основните задачи на статистиката - по наблюдаваната извадка да определи какво се случва с цялото множество.
Оправдано ли е да се очаква даден изкуствен интелект да бъде по-обективен от създателя си и каква е ролята на масива данни, от които се обучава, за крайните решения, които алгоритъмът дава?
Възможно е даден изкуствен интелект да бъде по-обективен от създателя си, но не и от данните. Например, ако в данни за подбор на служители има дискриминация към някой от половете, то тя ще се появи и в крайния резултат. Обратно - ако създателят на изкуствения интелект има очакване, че мъжете са по-добри от жените, но остави на алгоритъма сам да намери зависимостта между резултата и пола, а такава няма, е възможно да се постигне по-добра обективност.
Вие лично имате ли някакъв набор от правила, които следвате, за да избегнете риска от изкривяване на информацията, с която боравите?
Има някои неща, за които човек може да внимава. Какво е количеството и качеството на данните, с които разполагате. Полученият резултат не трябва да е твърде добър (много хубаво не е на хубаво). Какво са получили другите в сферата. Но все пак всяка система има в себе си заложено някакво очакване за това как изглежда светът. При статистиката имаш очакване за това как изглежда разпределението. По същия начин е и при машинното самообучение. Данните ще бъдат налети в някакъв калъп и това не може да бъде избегнато. Може да тестваш с различни калъпи, но накрая трябва да се спреш на нещо. Данните ще кажат какъв е диаметърът, но ти трябва да определиш дали е на окръжност или на елипса. Този калъп може да изкриви резултата и това трудно се избягва.
Какво да очакват хората от презентацията Ви по време на конференцията на Astea Solutions?
Понякога когато хората имат данни, боравят доста агресивно с тях. Искам да покажа, че не е толкова лесно да се вадят изводи от числа. Объркват се данни в ежедневието ни, в научни статии, в машинно самообучение. Статистиката е магия, но може да се превърне в тъмно изкуство, ако не внимаваме.