00:00
Лектор Амрапали Завери говорит по-английски.
00:05
Сегодня я буду говорить о вводных вещах в связанные данные.
00:14
по-английски.
00:20
Я буду говорить о жизненном цикле связанных данных и о принципах, которые стоял за этим.
00:27
по-английски.
00:30
Зачем использовать связанные данные, а также я буду приводить примеры.
00:35
по-английски.
00:39
И в завершении я поговорю о достижениях и о проблемах.
00:43
по-английски.
00:48
Во второй части презентации я поговорю о качестве данных, о направлениях и способах измерения качества актуальности связанных данных.
01:05
по-английски.
01:10
Также покажу инструменты для оценки качества связанных данных.
01:18
по-английски.
01:23
Начнем с принципов связанных данных и поговорим о том, что такое связанные данные.
01:28
по-английски.
01:36
Термин «связанные данные» относится к набору лучших практик для публикации и связывания структурированных данных в сети.
01:51
по-английски.
01:53
Существует пять принципов связанных данных.
01:57
по-английски.
02:01
Первое, это использовать URI как название для объектов.
02:08
по-английски.
02:12
URI – это универсальный идентификатор ресурсов.
02:18
по-английски.
02:25
Второй принцип – использовать URI http так, чтобы люди могли находить, искать эти имена.
02:35
по-английски.
02:27
Третий принцип состоит в том, что когда кто-то ищет по URI, должна поступать полезная информация, в которой используются стандарты РДФ спаркл.
03:06
по-английски.
03:13
И последний принцип, это принцип в том, чтобы включать ссылки на другие URI, чтобы можно было находить больше объектов.
03:27
по-английски.
03:33
Это облако связанных открытых данных на момент 2011 года.
03:38
Анг.
03:45
Все эти круги отображают, изображают наборы данных, которые были преобразованы, связаны в соответствии с этими принципами.
03:56
Анг.
04:04
Разные цвета соответствуют разным доменам.
04:07
Анг.
04:13
География. Областям знания, не доменам, областям знания. География, науки о жизни, правительство.
04:26
Англ.
04:30
Давайте посмотрим на принципы немного в больших подробностях.
04:35
Англ.
04:46
Ссылки URI должны отображать, должны идентифицировать не только документы веб и цифровой контент, но также и объекты реального мира и абстрактные понятия.
05:06
Англ.
05:17
Например, уникальные ресурсы, которые идентифицируют людей, места.
05:22
Англ.
05:27
Ну и пример абстрактных вещей, например, тип отношений, когда кто-то кого-то знает.
05:35
Анг.
05:39
Например, Иван знаем Амрапали.
05:42
Англ.
05:47
И второй принцип использования URI http.
05:51
Анг.
05:54
Который позволяет повторно использовать веб архитектуру.
05:59
Англ.
06:04
И делает акцент на веб и семантик веб.
06:11
Англ.
06:15
Потому что это позволяет дереферисинг ресурсов.
06:23
Англ.
06:29
А также повторное использование стандартных инструментов для обеспечения безопасности и так далее.
06:37
Англ.
06:40
Позже я покажу примеры этого.
06:45
Англ.
06:54
Третий принцип состоит в том, что люди и машины должны, что у людей и машин должна быть возможность получать должное представление о ресурсах.
07:05
Англ.
07:13
Для людей это должен быть html, для машин это должен быть RDF.
07:17
Англ.
07:25
Для этого существует механизм http, который называется “content negotiation”.
07:33
Англ.
07:49
Основная идея в том, что клиент http посылает http-заголовки с каждым запросом для того, чтобы показать какого типа документы предпочтительны.
08:02
Англ.
08:09
Это могут быть документы html, RDF, триплеты.
08:17
Англ.
08:25
То есть они проанализируют этот заголовок и выдадут пользователю соответствующий ответ.
08:34
Англ.
08:44
Существует две стратегии. Один вот 303 URI, другой хэш URI, но мы не будем углубляться в подробности.
08:52
Англ.
09:01
Только скажу, что оба обеспечивают тот момент, что объекты и документы, которые они описывают, не перемешиваются.
09:13
Англ.
09:18
И люди, и машины получают соответствующие представления.
09:27
Англ.
09:35
Мы переходим к четвертому принципу, который касается связывания двух наборов данных.
09:41
Англ.
09:54
Базовое определение связи, или сслыки, линк, в том, что триплет соединяет URI разных дата-сетов, наборов данных, вот это, собственно, и есть связь, линк.
10:18
Англ.
10:34
Собственно, основная идея связанных данных состоит в том, чтобы применить общую гиперссылочную архитектуру воркволдвеб к тому, чтобы распределять структурированные данные по масштабу всего мира.
11:00
Англ.
11:11
То есть в общем интернете у нас есть связи между http-документами, но и мы хотим, соответственно, соединить данные внутри сферы данных.
11:27
Англ.
11:33
И хотя уже есть набор данных, которые связаны.
11:38
Англ.
11:45
Следовательно, исследовательская задача состоит в том, чтобы создать эффективные связи с высокой точностью.
11:58
Англ.
12:00
Давайте посмотрим на один пример.
12:05
Англ.
12:10
Дипипедия – это набор данных, конвертированных из википедии.
12:19
Англ.
12:23
И это URI-ресурс Санкт-Петербург.
12:27
Англ.
12:32
Это соответствует всем принципам связанных данных.
12:36
Англ.
12:40
Чуть-чуть позже посмотрим на подробности.
12:48
Англ.
12:55
Теперь. Когда мы поговорили о принципах, давайте поговорим о том, зачем использовать связанные данные.
13:01
Англ.
13:15
Давайте посмотрим на такой пример. Допустим, мы хотим найти в сети следующие вещи: жилье поблизости к двуязычному немецко-русскому детскому сады в Лейпциге.
13:30
Англ.
13:37
Ну, или, например, исследователи, которые работают с мультимедийными темами в Восточной Европе.
13:46
Англ.
13:57
Если мы будем искать эту информацию просто в сети, то она там есть, но она скрыта.
14:06
Англ.
14:13
Например, вот база данных, в которой содержится вся информация о детских садах в Лейпциге.
14:20
Англ.
14:26
В этой базе данных содержится все о риэлтерских предложениях в Германии.
14:33
Англ.
14:39
Тогда, чтобы ответить на первый вопрос, нужна такая поисковая система, которая объединяет обе эти базы данных.
14:48
Анг.
14:51
Как это сделать.
14:55
Англ.
15:02
Нам нужно следовать 5-звездочному. 5-звездочной схеме Тима Берносали.
15:11
Анг.
15:15
Для открытой сети данных.
15:19
Англ.
15:25
Он предложил 5-звездочную модель.
15:27
Англ.
15:33
В которой первая звезда, это значит, что данные доступны в сети по открытой лицензии.
15:40
Англ.
15:44
Две звезды, это значит, что данные не просто доступны, но они и структурированы.
15:49
Англ.
15:53
Три звезды означают, что используются не проприетарные форматы.
15:56
Англ.
16:00
Четыре звезды значат, что для идентификации вещей используется URI.
16:05
Англ.
16:05
Англ.
16:12
И пять звезд, это значит, что данные связываются с данными других людей, и таким образом получается контекст.
16:20
Англ.
16:24
На следующих слайдах мы посмотрим на примеры каждого, из этих случаев.
16:29
Англ.
16:42
Вообще звезд нет, да, у этого дата-каталога, в котором есть хорошие мета-данные, и его можно найти.
17:01
Англ.
17:03
Но это только первый шаг до этого – ноль звезд.
17:09
Англ.
17:19
Соответственно, первая звезда – это сделать лицензию открытой.
17:24
Англ.
17:30
Например, публикаторы могут распространять данные, чтобы сделать их более заметными. Издатели в этом случае, да, издатели.
17:46
Англ.
17:52
Например, издательский центр «Nature» сделал свои данные доступными в качестве связанных.
18:04
Англ.
18:09
Также открытыми для общественности делает данные государство.
18:21
Англ.
18:30
Это делается в целях рекламы для увеличения трафика.
18:34
Англ.
18:42
Здесь, например, данные по фотоаппарату «Никон».
18:50
Англ.
18:56
Бывают целые сообщества, в которых создаются, в которых наборы данных создаются общими усилиями.
19:04
Англ.
19:09
Одно из таких сообществ – это “Music Brains”, в котором есть данные по открытой лицензии.
19:17
Англ.
19:24
Которые содержат информацию о музыке, записях, песнях, исполнителях и так далее.
19:33
Англ.
19:37
Две звезды – предоставить структурированные данные.
19:42
Англ.
19:46
Разрешить повторное использование.
19:49
Англ.
19:54
Это позволяет предоставлять информацию конечным пользователям в разных форматах.
19:59
Англ.
20:02
Объединение данных с другими наборами данных.
20:06
Англ.
20:09
А также анализ данных с третьей стороны.
20:16
Англ.
20:23
Есть уже известные форматы.
20:26
Англ.
20:35
Существуют форматы, которые легко повторно использовать, и которые хорошо структурированы. Это, например, exel, csv, xml.
20:46
Англ.
20:53
Не очень хорошие для повторного использования, например, просто веб-сайты, или microsoft word.
21:03
Англ.
21:09
Плох для повторного использования формат pdf, потому что из него трудно извлекать данные.
21:16
Англ.
21:22
И очень плохи для повторного использования это графики и карты без числовых значений.
21:34
Англ.
21:39
Три звезды – это предоставление данных в неприприетакрных форматах.
21:44
Англ.
21:49
Потому что инструменты, которыми пользуются специалисты, очень часто нуждаются в специальных форматах.
22:00
Англ.
22:08
И инструменты, которые могут читать эти специфические форматы, мало у кого есть, они дорогие и, соответственно, такие данные трудно использовать повторно.
22:21
Англ.
22:26
Например. Инструменты для гео-данных, статистический набор данных и так далее.
22:37
Англ.
22:44
Непроприетарные форматы это, например, csv, xml, джейсон.
22:50
Англ.
22:54
Ну, и конечно, IDF, который также может получить 4 или 5 звезд.
23:03
Англ.
23:09
4 звезды, как мы уже говорили, это когда в качестве идентификаторов используется URI.
23:15
Англ.
23:22
Например, вот URF для этого набора данных на ББС по Мадонне.
23:30
Англ.
23:38
Дизайн URI желательно должен быть постоянным и не зависеть от, и он должен быть независимым от реализации.
23:55
Англ.
24:02
Да, зачем превращать локальный идентификатор в URI?
29:09
Англ.
29:12
Чтобы сделать их уникальными на мировом уровне.
24:15
Англ.
24:19
Чтобы показать, из какого источника они происходят.
24:23
Англ.
24:25
Сделать их разворачиваемыми.
24:27
Англ.
24:49
Когда кто-то ищет этот URI.