Сторітелінг на основі даних – саме так працює TEXTY.ORG.UA. Про різні види цифрових історій, нові напрямки у data-журналістиці та експерименти світових видань під час V Lviv Media Forum розказали Анатолій Бондаренко і Влад Герасименко.
ВИДИ ІСТОРІЙ
Розповідає data-журналіст у TEXTY Влад Герасименко
Новинка – це свіжі дані, які щойно з’явились, або навіть ті, що давно існували, але ніхто їх не аналізував і не показував, як це виглядає. Наприклад, на своєму сайті ми зобразили карту ДТП Києва, де можна простежити, що скупчення аварій помітні біля супермаркетів на паркінґах.
Ще один приклад – інфографіка про редакційну політику провідних українських видань. Ми збирали заголовки і тексти новин топових українських ЗМІ, а потім простежили, наскільки часто там згадують Віктора Медвечука, наприклад. Найчастіше він фігурував у період своєї участі у переговорах у Мінську.
Тренд показує, як певна характеристика або показник змінюється в часі, а також демонструє закономірності таких змін. Ми робили веб-аплікацію, в якій ви можете ввести марку автомобіля і подивитись динаміку цін. Для цього знадобились дані з оголошень про вживані авто.
Прогноз. Можна мати ґрунтовний масив даних і натренувати на ньому якусь модель, щоб потім спрогнозувати інформацію. Інший спосіб – ви можете добре знати природу даних, як працює система, а потім лише підставити формулу. На сайті ми робили проект про стан пенсійного фонду: давали користувачам можливість побавитися з різними параметрами. Наприклад, змінювати значення пенсійного віку і виду пенсії і у результаті спостерігати, як сума змінюється, росте чи падає дефіцит тощо.
Спростування (міфу). Ви можете знати, що у суспільстві існує певний стереотип, уявлення про щось, а потім порівняти це з даними, і виявиться, що все зовсім не так. Один з прикладів спростування, який ми робили, стосувався лінії розмежування військ на півдні Донецької області. На супутниковому знімку, зробленому влітку 2015-го, видно пунктирну лінію –відповідно до Мінських угод, якою позначено лінію розмежування військ. Однак, якщо придивитись, біля неї помітно темну смугу – так необроблені поля виглядають з супутника. З цих даних можна зрозуміти, що така лінія розмежування відрізняється від офіційної.
Інший приклад стосується Укрзалізниці. Ми були переконані, що існує дуже багато різних пільгових категорій, іноді незрозумілих, які тягнуться ще з радянських часів, які «з’їдають» гроші. Насправді, коли ми подивились на графіку, то з’ясували: основну частину становлять студентські пільги. Решта – за інвалідністю.
Типовий представник. Завдяки такому виду історій ви можете просто показати усім щось давно відоме, що ніхто ніколи не бачив у даних.
Нам пощастило отримати дані про квитки пасажирів Укразалізниці: коли пасажири їздили, у якому напрямку, коли придбали квиток, якою була вартість, скільки часу пасажир провів у дорозі, наявність чи відсутність пільг тощо. Ми намагались проаналізувати усе. Як результат отримали типовий квиток з Укрзалізниці – це графіка про те, за скільки днів до виїзду ми купуємо квитки. Можна зробити висновок, що найчастіше люди купують квитки у день від’їзду.
«Білі ворони». Цей вид історії підійде, якщо ви хочете показати певну аномалію у даних – точки, які дуже сильно відрізняються від основного масиву. Завжди цікаво подивитися на це детальніше з усіх боків і з’ясувати, чому ж так стається. Один з прикладів стосується цьогорічного «Євробачення». Це графіка про усі пісні учасників, яку ми зобразили за різними параметрами: наскільки це танцювальна пісня, наскільки гучна, який темп, тривалість, інструментальна чи акустична музика. І пісня переможця з Португалії майже за усіма значеннями контрастує з іншими.
Був ще цікавий випадок про масив даних з Укрзалізниці. Коли ми вже завершили робити все, що планували, і перейшли до інших проектів, люди почали писати нам у Facebook: «Дивіться, у вашій візуалізації для товарної станції Київ-Дніпровський написано, що 2 тисячі пасажирів зранку приїхали і 2 тисячі ввечері поїхали. Такого взагалі не може бути, бо станція товарна». Ми спочатку теж подумали, що це якась помилка. Однак потім побачили, що це не єдина товарна станція, куди дійсно приїздили приїздили і звідки від’їжджали повні вагони. Таких у Києві чотири. Період прибуття і відправлення на товарні станції співпадає з подіями Майдану – січень-лютий 2014 року. Згодом ми отримали низку підтверджень, що це були потяги із проплаченою масовкою на Антимайдан.
ПРАКТИКИ
Розповідає керівник напрямку журналістики даних та інфографіки у TEXTY Анатолій Бондаренко
Дослідники з The Atlantic завантажили тексти приблизно з трьох тисяч книжок, які підходили їм за розміром, і кожен виміряли за допомогою так званого аналізу сентиментів, тобто настрою. Так визначили траекторію – як змінювалися емоції у процесі прочитання книжок. І виділили шість типів аналітичних історій.
У майбутньому ми будемо бачити все більше і більше таких прикладів.
Представники видання The Pudding стали помічати, що останнім часом популярні пісні стали більш позитивними. Наприклад, хтось любить The Beatles і каже, що раніше там була лірика, а зараз – Daft Punk. Вони дослідили всі чартові пісні, починаючи з 1950-х років, і зробили трюк із тим, як знайти об’єктивні критерії для визначення більш примітивних і менш примітивних композицій. Вони обрали, зокрема, повтор носіїв – що більше повторів, то примітивніша пісня. Так виданню вдалося побачити, наскільки змінюється розмір тексту, після того як його архівують. Програма шукає текстові фрагменти, які повторюються, і стискає файл. Тобто, якщо ви заархівували пісню, і вона зменшилася на 20% – це одне. А якщо на 90%, то означає, що вона складається з повторів. Якщо у 1960-х роках було переважно 40-47%, то зараз 60% пісень в чартах примітивніші за ті, що були раніше.
АЛГОРИТМИ
Це один з трендів. Ми не знаємо, як працює Google і Facebook, бо бачимо тільки результати. Тому величезну частину журналістської роботи досліджують алгоритмами. Це почало робити видання з журналістики даних ProPublica.
У деяких судах Америки використовується алгоритм, який за допомогою 30-40 параметрів, що стосуються конкретної людини, визначає, чи скоїть вона впродовж найближчих двох років правопорушення. Залежно від відповідей – так чи ні – суд приймає рішення: обмежити волю, посадити до в’язниці чи відпустити.
За допомогою інформаційного запиту журналісти отримали до цього доступ. Алгоритм комерційний, тому вони натренували власну модель, яка давала той самий результат, що й закриті дані.
Згодом журналісти побачили, що алгоритм досить упереджено ставиться до окремих категорій людей: темношкірих і жінок. Тобто за рівних умов темношкірий чоловік отримує більше покарання, ніж світлошкірий. Аналогічно, жінка матиме більше, ніж чоловік.
Такий тип журналістики буде більше розвиватися, бо алгоритми оточують нас всюди. Навіть на сайті видання ProPublica вже є розділ Algorithms.
The Wall Street Journal теж намагається не відставати. «Хочеш дізнатися як працюють ті, хто торгує акціями – прочитай нашу статтю» – оголошення з’явилося місяць тому.
Такого у подальшому буде більше: журналісти намагаються пояснити, з чого складається те, від чого залежать статки багатьох людей.
Великим сегментом майбутньої журналістики даних буде робота з мовою. Все почалося кілька років тому. Існує галузь обробки натуральної мови NLP (National Language Processing). Вона довго розвивалася, однак відбувся вибух – за рахунок нового класового алгоритму Word2vec. Він працює так: ми беремо певне слово чи фрагмент тексту і переводимо у мовний простір. Вони групуються таким чином, що схожі та пов’язані між собою перебувають в одному місці, а все решта – трішки далі. Тобто цей алгоритм складає докупи схожі слова.
На графіку видно, що слова «повітряний змій», «вода», «космос», «собака», «дім» – не близькі з якимись іншими. Натомість найбільш схожі (за значенням) – «Франція», «Іспанія», «Бельгія», «Нідерланди» та «Італія». Алгоритм самостійно та автоматично з у великому масиві слів знаходить взаємозв’язки.
Існує ще один алгоритм, який зберігає взаємовідношення між словами і може знаходити схожі. Як приклад, у нас є вектор для чоловіка, а є для жінки.
Коли ми від вектора жінки віднімаємо вектор чоловіка, то бачимо, чим вони відрізняються один від одного.
Якщо у тому ж просторі згадаємо коротке слово king і додамо той самий вектор, відповідно, отримаємо queen.
Алгоритм знаходить і зберігає такі зв’язки в англійській мові автоматично. За рахунок цього стали можливими такі речі, як використання цього початкового алгоритму для кластеризації і створення ефектів схожих заголовків.
Помаранчевий колір – це The New York Times, а синій – BuzzFeed. Усім відомо, що BuzzFeed має дещо «жовті» заголовки, а The New York Times – класична виважена журналістика. Завдяки такому автоматичному пошуку ми знаходимо статті, названі більш «жовто», ніж середні. Цей аналіз став можливим із появою вищевказаних алгоритмів.
КАРТИНКИ
Ще один приклад – робота із зображеннями. Люди складали середній портрет із облич на картинах за останні 500 років. Результати відрізняються залежно від епохи: для ренесансу – одне, для класицизму – інше, для постмодернізму – третє.
Ідеєю цікавого проекту може бути створення середнього обличчя окремої категорії суспільства. Наприклад, обличчя суддів. Їх можна розкласти на архетипи, а можна – на базові компоненти. Наприклад, з трьох базових облич скомпонувати решту й подивитися, які вони і як відрізняються для кожної з категорій.
А це патерн-проект, коли ви просто вибираєте місце на карті, і алгоритм автоматично знайде дуже схожий зразок. Поки що це можливо зробити лише для кількох міст, оскільки для цього необхідно проіндексувати багато зображень. Можна уявити, що у разі, коли таких більш детальних даних з’явиться більше для Волині і, наприклад, Рівненської області, то можна буде шукати патерни видобування бурштину. Таким чином можна буде знайти будь-яке місце (навіть закрите), де видобувають бурштин.
Через 20 років справжнього контенту не буде – ні відео, ні аудіо. Сьогодні все генерується за допомогою нейронних мереж. Ймовірно, через 5 років не буде електронного тексту. Важко розрізнити сьогодні, чи матеріал написаний людиною. Тому скоро стане потрібним такий напрямок журналістики, який буде займатися визначенням, що справжнє, а що ні.
Одна з хибних стратегій може бути позиція: «Я не журналіст, а дослідник, займаюсь даними». З іншого боку, також зручно, коли кажуть: «Слухай, у своєму дослідженні ти якусь дурню написав. Це неправильно, з точки зору статистики. Не та методологія». Тоді ти відповідаєш: «Я не дослідник, а журналіст». Подвійна стратегія – подвійний виграш. Тому навчитися трохи програмувати і займатися аналізом даних ніколи не завадить хорошому журналісту.
Ілюстрації з презентації Влада Герасименка і Анатолія Бондаренка