Статистиката е магия, но може да се превърне в тъмно изкуство

За машинното обучение и достигането до обективни изводи, вижте какво сподели един от лекторите на Astea Conference: Practical Magic

07 май 2019, 12:19 a+ a- a

Статистиката е много мощен инструмент. Тя е в основата на машинното самообучение, което може да постига впечатляващи резултати. Също така с нея може да се докаже връзка между раждаемостта и броя на щъркелите в дадена държава. Как злоупотребяваме със статистиката, когато искаме да докажем тезата си? Как машинното самообучение се учи на глупости, когато не отчитаме как работи статистиката? Тези въпроси ще засегне Екатерина Михайлова, програмист и основател на стартъп, по време на презентацията си в тазгодишното издание на Astea Conference: Practical Magic.

Свързани новини

Александър Попов: Ще се превръщаме все повече в киборги

Преслав Наков ще открие Astea Conference: Practical Magic

Магията на програмирането

Тазгодишната технологична конференция на Astea Solutions ще е с фокус „практически магии“

За пресечните точки между статистиката и машинното обучение вижте какво сподели тя пред екипа на Economy.bg:

Кой е най-ранният Ви спомен, свързан със статистика и какво Ви накара да заобичате тази математическа дисциплина?
Втори курс по "Увод в обработката на естествени езици". Разглеждахме различни подходи към изкуствен интелект и статистическите бяха най-интересни. Резултатите ми се виждаха магически - машини имитираха хора по невероятен начин благодарение на статистика. Малкият ѝ брат - вероятностите, също са доста интересни. Те имат и доста по-всеобхватно приложение в нашия живот и постоянно биват използвани грешно в политически спорове, от доктори, от адвокати, от учени. Това ме накара да се влюбя във вероятностите и статистиката - те са приложна магия. Вълшебни са, но намират приложение във всички сфери на нашия живот.

Ако трябваше да обясните на дете какво е „статистическа грешка“, как бихте подходили?
Ако през живота си си ял само 2 ябълки и двете са били червени, ще смяташ, че ябълките могат да бъдат само червени. Ако следващата ябълка, която изядеш е жълта ще смяташ, че на света има двойно по-малко от техния вид. Колкото повече ябълки ядеш, толкова по-добра представа ще имаш за това как са разпределени ябълките по цвят. Но винаги ще си малко в грешка, дори да си изял хиляди. Тази грешка може да бъде изчислена в зависимост от броя ябълки, който си изял - колкото повече ябълки си изял, толкова по-малка е грешката.

Каква е връзката между статистиката и машинното самообучение?
Методите за машинно самообучение се опитват да разберат как изглежда светът по това какво се наблюдава в ограничено количество данни. Това е и една от основните задачи на статистиката - по наблюдаваната извадка да определи какво се случва с цялото множество.

Оправдано ли е да се очаква даден изкуствен интелект да бъде по-обективен от създателя си и каква е ролята на масива данни, от които се обучава, за крайните решения, които алгоритъмът дава?
Възможно е даден изкуствен интелект да бъде по-обективен от създателя си, но не и от данните. Например, ако в данни за подбор на служители има дискриминация към някой от половете, то тя ще се появи и в крайния резултат. Обратно - ако създателят на изкуствения интелект има очакване, че мъжете са по-добри от жените, но остави на алгоритъма сам да намери зависимостта между резултата и пола, а такава няма, е възможно да се постигне по-добра обективност.

Вие лично имате ли някакъв набор от правила, които следвате, за да избегнете риска от изкривяване на информацията, с която боравите?
Има някои неща, за които човек може да внимава. Какво е количеството и качеството на данните, с които разполагате. Полученият резултат не трябва да е твърде добър (много хубаво не е на хубаво). Какво са получили другите в сферата. Но все пак всяка система има в себе си заложено някакво очакване за това как изглежда светът. При статистиката имаш очакване за това как изглежда разпределението. По същия начин е и при машинното самообучение. Данните ще бъдат налети в някакъв калъп и това не може да бъде избегнато. Може да тестваш с различни калъпи, но накрая трябва да се спреш на нещо. Данните ще кажат какъв е диаметърът, но ти трябва да определиш дали е на окръжност или на елипса. Този калъп може да изкриви резултата и това трудно се избягва.

Какво да очакват хората от презентацията Ви по време на конференцията на Astea Solutions?
Понякога когато хората имат данни, боравят доста агресивно с тях. Искам да покажа, че не е толкова лесно да се вадят изводи от числа. Объркват се данни в ежедневието ни, в научни статии, в машинно самообучение. Статистиката е магия, но може да се превърне в тъмно изкуство, ако не внимаваме.

преди 52 минути

Science

Българска ученичка представи свой проект по време на Нобеловите награди

Александра Петкова, възпитаник на НПМГ „Акад. Любомир Чакалов“, бе една от 20 младежи от цял свят с признати научни разработки

преди 2 часа

Свят

2024: Най-топлата година

Затоплянето е надхвърлило международно договорените 1,5 градуса по Целзий

преди 2 часа

България

МвНР: Очакваме до края на 2025 да изпълним критерия за отпадане на визите за САЩ

Напредъкът на България за включване в Програмата на САЩ за безвизови пътувания е значителен, заявява пред НС външният министър

преди 4 часа

Иновации

Кастело Прикаст: Внедряването на AI е бъдещето на строителството

Чрез изкуствения интелект значително се намаляват сроковете за изпълнение на отделните проекти, твърдят от компанията

преди 4 часа

Свят

Google и Microsoft дариха по $1 млн. на Тръмп

Средствата са предназначени за кампанията по стъпване в длъжност на следващия американски президент

06 януари 2025, 15:41

Иновации

Какво предстои в света на технологиите през 2025?

Актуалните и бъдещите тенденции в технологичния сектор пред Economy.bg коментират ИТ лидери във водещи компании в България

06 януари 2025, 13:18

HumanCapital

Какви са прогнозите за ИТ пазара на труда през 2025?

Вижте каква година очакват HR мениджъри във водещи технологични компании в България