неделя, 28 април 2024   RSS
    Барометър | Региони | Компании | Лица | Назначения


    2233 прочитания

    ИТ проектите в България: По какви проекти работи Commetric

    За продуктите, екипите и технологиите, които използват, научете от екипа за иновации на компанията
    07 юли 2023, 10:34 a+ a- a

    На снимката от ляво на дясно по часовниката стрелка: Александър Белокапов - Director of Data Engineering; Eлена Михалска - Project Manager; Слави Славов - Data Scientist; Геновева Михайлова - Natural Languages Processing Analyst; Светлана Вълева - Transformation Director; Спирос Гарифалос - COO; Кристина Тоцева - Managing Director; Иван Узунов - Technology Director; Мая Колева - Head of Research and Insights, Константинос Каракостас - Head of Machine Learning.

    ИТ секторът в България продължава да се развива динамично и да предлага все повече и все по-интересни възможности за професионална реализация. Технологичните екипи в България работят по проекти на компании и организации от цял свят, разработват собствени софтуерни продукти, които намират приложение в разнообразни области от живота.

    По какви проекти работи Commetric научете от екипа за иновации на компанията: Александър Белокапов - Director of Data Engineering; Eлена Михалска - Project Manager; Слави Славов - Data Scientist; Геновева Михайлова - Natural Languages Processing Analyst; Светлана Вълева - Transformation Director; Спирос Гарифалос - COO; Кристина Тоцева - Managing Director; Иван Узунов - Technology Director; Мая Колева - Head of Research and Insights, Константинос Каракостас - Head of Machine Learning.

    Разкажете ни за основния проект или ключови проекти, по които работят екипите в България.
    Зад продуктовите и комуникационни решения и стратегии на големи фармацевтични компании, световни банки, консултантски фирми и др. стои анализ на големи масиви от медийни данни – big data, събрани и обработени от организации като нашата. Работата с толкова много информация на различни езици може да бъде трудоемък и бавен процес, но светът на новините не чака никого – имидж може да се подрони за кратко време и да има трудно поправими последици.

    В Commetric от години се разработват и поддържат поредица от технически решения в областта на медийните проучвания, сред които Cogent, Siera и други. Основният проект на екипа ни за машинно обучение (Machine Learning) се нарича Cerebro.

    Сеrebro е единна екосистема на цялата инфраструктура и обслужва тренирани модели за обработка на естествен език (Natural Language Processing, NLP), осигурява повторно трениране и пренастройване на тези модели чрез машинно самообучение (Automated Machine Learning, AutoML). Cerebro е създаден, за да спомогне и улесни ежедневните задачи на медийните анализатори на Commetric, като покрива по-голямата част от повтарящите се човешки действия за всеки проект. Той подпомага анализирането на големи масиви от новинарско съдържание за клиентите ни и техните конкуренти, прави разрастващия се екип по-ефективен и последователен. Това е особено важно сега, когато анализаторите не седят физически в един и същи офис, защото работят предимно от вкъщи. Помага ни и при наемането на нови хора, тъй като улеснява процесите на обучение.

    Бихте ли разказали малко повече за ключовия Ви проект - Cerebro?
    Ние разглеждаме Cerebro като проект на много нива. Първото ниво е инженерната част, второто – машинното самообучение, а последното са свързващите портове (API, ad-hoc предсказания в голям обем и т.н.).

    В инженерната част се включват серия автоматизирани поточни линии, които са внимателно оптимизирани периодично да проверяват за нови данни и да решат дали се е натрупала критична маса, за да стартира следващият „жизнен цикъл“ на модела, или да създаде съвсем нов модел и да го включи в екосистемата. За да постигне това в голям мащаб, Cerebro използва доказани технологии, които ни позволяват да предоставим моделите за ползване без прекъсвания, както и да следим процесите и прогреса.

    В частта, свързана с машинното самообучение, използваме последните нововъведения в областта на изкуствения интелект като Transformers, които ни позволяват да създаваме надеждни модели за най-разнообразни задачи, свързани с обработка на естествен език. В ежедневната работа на медийните анализатори има повтарящи се задачи, свързани с определяне на теми, коментатори, релевантнотст, които са автоматизирани именно чрез машинно самообучение. Тези функции, комбинирани с AutoML процедури за продължаващо ретрениране и настроойване на модели, са ключовите характеристики на Cerebro.

    Друга важна характеристика на Cerebro е, че е напълно интегриран в основната платформа на Commetric – Cogent, за да предоставя обработка на новинарски статии в ежедневната работа на екипа на медийните анализатори и да им предлага извлечени от ML решения.

    Колко души работят по всеки един от проектите и какъв тип специалисти са?
    Екипите, които си сътрудничат, за да поддържат обмена на информация, включват: машинно самообучение (Мachine Learning, ML), технологии (Technology), обработка на естествения език (NLP), инженеринг на данни (Data Engineering) и медийни консултанти.

    Екипът за машинно самообучение, който е основният работен екип, работи в тясно сътрудничество с колегите от технологичния екип за интеграцията в основната технологична платформа за медиен анализ – Cogent. Те имат активна интеракция и с колегите от екипа за обработка на естествения език за взаимодействието на Cerebro с патентования NLP софтуер на Commetric – Siera. Бизнес гледната точка на медийния анализ се осигурява от колеги с дългогодишен опит от основния ни екип за медиен анализ, които предоставят важни, наложени във времето и работата с различни анализи, изводи за данните и естеството на работния процес. Те задават насоката на възможните за разработка задачи за покриване и посрещане нуждите на екипа за медиен анализ. Не на последно място, нито един ML модел не може да бъде обучен без данни. За капсулирането, организацията и предоставянето на данни отговарят колеги от екипа за инженеринг на данни.

    И ако вече не сме ви объркали съвсем колко души са замесени в „аферата“, наречена машинно самообучение, ще кажем накратко – те са много, от различни екипи и от различни националности, каквато е и цялата ни компания. Най-добрата възможна среда за обучение на изкуствен интелект.

    Какъв вид технологии използвате за различните типове проекти?
    Cerebro използва различни проекти с отворен код, както и вътрешни софтуерни решения за своя технологичен пакет. И за хората със слаби сърца, които не обичат технически подробности, препоръчваме да преминат към следващия абзац, а от „тех-лавърите“ очакваме въпроси, дискусии и съвети за технологичния ни Франкенщайн.

    Pytorch и Hugging Face Transformers са ключова част от разработваните от нас модели. MLflow играе основна роля за процедурите ни, които използват AutoML, а Elastic осигурява възможности за наблюдение.

    Не на последно място, използваме Docker за организиране и настройване, като Docker Swarm управлява оркестрацията на стека.

    Персонализираните Transformers модели са тренирани да разбират и представят по-добре тематичната топология на индустриите, към които принадлежат нашите клиенти. По време на фазата на експериментиране се използва техниката Neural Architecture Search (NAS), за да се намери най-подходящата архитектура.

    И накрая, тъй като са ни нужни повече от 500 деплойнати и готови за използване по всяко време ML модели, разработихме нов хибриден подход, поддържащ най-съвременната производителност на Transformers, комбинирана с минимални изчислителни ресурси и значително намален CO2 отпечатък.

    Как е организиран работният процес и каква е управленската структура за различните проекти?
    Работният процес е до голяма степен сходен за всички проекти. Предоставя се кратко описание на проекта. Провежда се вътрешно екипно обсъждане, за да се адресират всички потенциални пропуски и/или неясноти. Стартът на проекта идва след подробно обсъждане с екипа, който е задал проекта, за да се осигури пълно съответствие. В зависимост от проекта ML екипът извършва проучване за най-подходящите съвременни методологии и технологии и създава съответния план за атака. Работният процес често включва много експерименти с данните и различни модели и технологии, докато се постигне възможно най-добрият резултат. В заключение, харесваме сесии с обсъждане и винаги сме достатъчно гъвкави, за да променим нещата така, че да имаме най-добър резултат както по отношение на качеството, така и на времето.

    Как се развиват проектите през годините?
    Commetric и машинното учене (ML) са неизменно свързани от самото начало на нашата компания. Cerebro обхваща в себе си целия натрупан опит на ML и го надгражда, използвайки най-модерните технологии в областта. Една от иновациите, които Cerebro въплъщава в себе си е, че той е интегриран в платформата за медиен анализ на Commetric и се използва дори несъзнателно от медийните анализатори в тяхната ежедневна работа. Моделът е изключително гъвкав и позволява лесно да се интегрират нови модели, таскове и видове данни с минимална намеса на човек. Не на последно място, ресурсите му се контролират ефективно, което ни позволява да намалим CO2 отпечатъка си въпреки огромното количество модели и да постигнем голяма мащабност.

    Кои са най-големите предизвикателства по работата на този проект или по другите ключови проекти?
    Подобно на повечето Data Science проекти, които се занимават с трениране и настройване на модели, и този проект е изправен пред предизвикателствата на недостатъчни или „замърсени“ данни, както и проблемите при скалирането в големи мащаби. Необходимостта от обучение на NLP модели с небалансирани данни налага използването на методи за изкуствено увеличаване на данните. Освен това работата с глобални клиенти създава необходимост от покриване на повече от 90 езика. Ето защо използваме комбинация от езикови (cross-lingual) модели и персонализирани решения.

    Друг значителен източник на „шума” е човешкият фактор. Тъй като по-голямата част от анотациите, които се използват за обучение на моделите, са генерирани от хора, леките несъответствия в комбинация със субективност водят до не толкова чисти данни.

    Второто предизвикателство, на което се натъкнахме, е това, че Transformers моделите изискват изключително много ресурси, но не се справят добре с използването им в реално време. Затова трябваше да разработим процедури и методи, за да получим най-съвременното представяне на модели, базирани на Transformers, като в същото време да успеем да разширим мащаба и да поддържаме времето за изчисляване на резултати на приемливо ниво.

    Кои са най-значимите постижения, които можете да отбележите за проектите, по които работите?
    От техническа гледна точка успехите се изразяват в преодоляване на гореспоменатите предизвикателства. Изпълняваните от Cerebro в момента задачи постигат най-висока оценка на представяне и се очаква да улеснят работния процес на медиен анализ, като го направят по-ефективен във времето и гарантират най-високи стандарти по отношение на последователност и внимание към детайлите.

    От практическа гледна точка приемаме като голям успех широката приемственост, която срещаме от нашите анализатори, които осъзнават ползите от Cerebro, подпомагат неговото развитие и дават предложения за нови функции. Преките ни „потребители“ – медийните анализатори – са убедени, че „идваме с мир“ и сме тук, за да подкрепяме и подпомагаме техните усилия.

    Какво предстои?
    Нашата визия за Cerebro е да разширим възможностите му, за да покрива повече задачи за обработка на естествен език, сред които създаване на информационни бюлетини, резюмиране на медийно съдържание, разпознаване на имена на хора, организации и общности и извличане на оценъчни моменти в статиите, които влияят позитивно или негативно на читателите.

    Успоредно с това за по-нататъшно улеснение на процедурите за AutoML се планират функции като задействане на ретрениране на модели от Data/Concept drift. Гъвкавостта на Cerebro му позволява да включва различни нови архитектури, които в момента набират популярност, като например многотаскови и многомодални модели.

    Вижте профила и актуалните позиции за работа на КОММЕТРИК в JOBS.bg

    ВИЖТЕ ОЩЕ ОТ РУБРИКАТА ИТ ПРОЕКТИТЕ Е БЪЛГАРИЯ:   

    По какви проекти работи Центърът за интелигенти операции на Accenture в България
    Какви продукти разработва Tarya Fintech?
    По какви проекти работи Next IT Services?
    Какви продукти разработва CSoft?

    По какви проекти работи Burgiss?

    Какви продукти разработва DevOcean Solutions

    По какви проекти работи Digital Workplace екипът на Commerzbank DTC Sofia
    По какви проекти работи Антхил?

    По какви проекти работи Абалта Технолоджис?
    Какви продукти разработва iCard?

    По какви проекти работи SAP екипът на KPMG IT Service?
    По какви проекти работи Коника Минолта България?

    По какви проекти работи SoftServe в България?
    По какви проекти работи GlobalFoundries България?

    Какви продукти разработва Software AG България?
    По какви проекти работи myPOS?    
    Какви продукти разработва Uber Engineering София?
    По какви проекти работи Sciant?

    По какви проекти работи Обджект Системс Интернешънъл?
       
    По какви проекти работи Дигиталният Технологичен център на Commerzbank?
    По какви проекти работи Modern Workplace сервизната линия на DXC Technology?
    По какви проекти работи INDUSTRIA?
    По какви проекти работи Software Engineering екипът на KPMG IT Service?
    Какви продукти разработва SMSBump?
    Какви продукти разработва Treasury Intelligence Solutions?
    По какви проекти работи Деспарк?
    Какви продукти разработва Cobuilder?
    По какви проекти работи Zariba Games?
    По какви проекти работи СТАНГА?
    По какви проекти работи отделът по киберсигурност на DXC Technology България?
    По какви проекти работи SEPA Cyber Technologies?
    По какви проекти работи Accedia?
    По какви проекти работи Festo в България?
    По какви проекти работи SoftGroup?
    По какви проекти работи LimeChain?
    Какъв продукт разработва AMPECO? 
    Какви продукти разработва WPX?
    Какви продукти разработва Gtmhub?
    По какви проекти работи Региоком България?
    Какви продукти разработва „Уча.се“?
    По какви проекти работи DROXIC?
    Какви продукти разработва Delasport?
    По какви проекти работи Бош Инженеринг Център София?
    По какви проекти работи ТехноЛогика?
    По какви проекти работи Godel Technologies?
    Какви продукти разработва ICDSoft?
    Какви продукти разработва „Алтерко“?
    Какви продукти разработва OfficeRnD?
    По какви проекти работи Motion Software?
    По какви проекти работи Matrix Eastern Europe?
    По какви проекти работи Mobile Wave Solutions?
    По какви проекти работи TINQIN?
    По какви проекти работи Tek Experts?
    Какви продукти разработва TIMIFY?
    По какви проекти работи Eos Matrix?
    По какви проекти работи GemSeek?

    По какви проекти работи Milestone?
    По какви проекти работи ITGix?
    По какви проекти работи Devision?
    Какви продукти разработва Acronis?
    По какви проекти работи EPAM Systems
    По какви проекти работи KPMG ITS?
    По какви проекти работи Scalefocus?
    Какъв продукт разработва OpenTag?
    По какви проекти работи Anakatech?
    По какви проекти работи Flat Rock Technology?
    По какви проекти работи Atos Bulgaria Competency Center
    Какви продукти разработва Balkan Services?
    По какви проекти работи Нетера?
    По какви проекти работи Fourth?
    По какви продукти работи Dynamo Software?
    По какви проекти работи Мнемоника?
    По какви проекти работи Paysafe?
    Какви продукти разработва Alcatraz AI?
    Какви продукти разработва PROS?

    По какви проекти работи News UK екипът на Questers?
    По какви проекти работи Tick42?
    По какви проекти работи Grafixoft?
    По какви проекти работи Gameloft?
    Какви продукти разработва VMware?
    По какви проекти работи HeleCloud?
    Какви продукти разработва AtScale?
    По какви проекти работи Smart IT?
    Какви продукти разработва Infragistics?
    По какви проекти работи Appolica?
    По какви проекти работи Astea Solutions?
    По какви проекти работи „Сенсата Технолоджис“?
    По какви проекти работи HPE?
    По какви проекти работи Mansion?
    По какви проекти работи А1 България?

    По какви проекти работи Dreamix?
    По какви проекти работи Immedis?
    По какви проекти работи SEEBURGER?
    По какви продукти работи DIGITALL
    По какви проекти работи Енетпулс?
    Какъв продукт разработва StorPool Storage?
    По какви проекти работи Блубито?
    По какви проекти работи Модис?
    Какви продукти разработва Playtech?
    По какви проекти работи Coherent Solutions?
    Какви продукти разработва Experian?
    По какви проекти работи DHL Freight ESS?
    По какви проекти работи "Бианор Сървисиз"
    По какви проекти работи МенторМейт?
    По какви проекти работи Proxiad?
    По какви проекти работи DataArt?
    По какви проекти работи Resolute Software?
    Какви продукти разработва Progres

    Нагоре
    Отпечатай
     
    * Въведеният имейл се използва само за целите на абонамента, имате възможност да прекратите абонамента по всяко време.

    преди 2 дни
    ОИСР: 15-годишните у нас с по-ниски очаквания за завършване на висше от връстниците си по света
    Социално-емоционалните умения са решаващи за академичния успех, професионалната реализация и качеството на живот на младежите, сочи проучване на ОИСР
    преди 2 дни
    Метрото ще се разшири с 2 станции в "Люлин"
    Прогнозната цена е 147 млн. лева, ще се търси финансиране и от ЕС
    преди 2 дни
    За първи път: Пускат 7 двуетажни влака у нас
    Полска фирма ще достави на България влаковете за над 300 милиона лева
    преди 2 дни
    Българските иновативни училища влизат в мрежата на ОИСР
    Създателят на изследването PISA е у нас, за да представи резултатите от социално-емоционалните умения на учениците по света
    26 април 2024, 11:47
    Делойт Централна Европа откри нов хъб в София
    Екипът в София в момента се състои от 50 професионалисти, амбицията е да се увеличи до 500 през следващите няколко години