Лектор Амрапали Завери говорит по-английски

00:00

Лектор Амрапали Завери говорит по-английски.

00:05

Сегодня я буду говорить о вводных вещах в связанные данные.

00:14

по-английски.

00:20

Я буду говорить о жизненном цикле связанных данных и о принципах, которые стоял за этим.

00:27

по-английски.

00:30

Зачем использовать связанные данные, а также я буду приводить примеры.

00:35

по-английски.

00:39

И в завершении я поговорю о достижениях и о проблемах.

00:43

по-английски.

00:48

Во второй части презентации я поговорю о качестве данных, о направлениях и способах измерения качества актуальности связанных данных.

01:05

по-английски.

01:10

Также покажу инструменты для оценки качества связанных данных.

01:18

по-английски.

01:23

Начнем с принципов связанных данных и поговорим о том, что такое связанные данные.

01:28

по-английски.

01:36

Термин «связанные данные» относится к набору лучших практик для публикации и связывания структурированных данных в сети.

01:51

по-английски.

01:53

Существует пять принципов связанных данных.

01:57

по-английски.

02:01

Первое, это использовать URI как название для объектов.

02:08

по-английски.

02:12

URI – это универсальный идентификатор ресурсов.

02:18

по-английски.

02:25

Второй принцип – использовать URI http так, чтобы люди могли находить, искать эти имена.

02:35

по-английски.

02:27

Третий принцип состоит в том, что когда кто-то ищет по URI, должна поступать полезная информация, в которой используются стандарты РДФ спаркл.

03:06

по-английски.

03:13

И последний принцип, это принцип в том, чтобы включать ссылки на другие URI, чтобы можно было находить больше объектов.

03:27

по-английски.

03:33

Это облако связанных открытых данных на момент 2011 года.

03:38

Анг.

03:45

Все эти круги отображают, изображают наборы данных, которые были преобразованы, связаны в соответствии с этими принципами.

03:56

Анг.

04:04

Разные цвета соответствуют разным доменам.

04:07

Анг.

04:13

География. Областям знания, не доменам, областям знания. География, науки о жизни, правительство.

04:26

Англ.

04:30

Давайте посмотрим на принципы немного в больших подробностях.

04:35

Англ.

04:46

Ссылки URI должны отображать, должны идентифицировать не только документы веб и цифровой контент, но также и объекты реального мира и абстрактные понятия.

05:06

Англ.

05:17

Например, уникальные ресурсы, которые идентифицируют людей, места.

05:22

Англ.

05:27

Ну и пример абстрактных вещей, например, тип отношений, когда кто-то кого-то знает.

05:35

Анг.

05:39

Например, Иван знаем Амрапали.

05:42

Англ.

05:47

И второй принцип использования URI http.

05:51

Анг.

05:54

Который позволяет повторно использовать веб архитектуру.

05:59

Англ.

06:04

И делает акцент на веб и семантик веб.

06:11

Англ.

06:15

Потому что это позволяет дереферисинг ресурсов.

06:23

Англ.

06:29

А также повторное использование стандартных инструментов для обеспечения безопасности и так далее.

06:37

Англ.

06:40

Позже я покажу примеры этого.

06:45

Англ.

06:54

Третий принцип состоит в том, что люди и машины должны, что у людей и машин должна быть возможность получать должное представление о ресурсах.

07:05

Англ.

07:13

Для людей это должен быть html, для машин это должен быть RDF.

07:17

Англ.

07:25

Для этого существует механизм http, который называется “content negotiation”.

07:33

Англ.

07:49

Основная идея в том, что клиент http посылает http-заголовки с каждым запросом для того, чтобы показать какого типа документы предпочтительны.

08:02

Англ.

08:09

Это могут быть документы html, RDF, триплеты.

08:17

Англ.

08:25

То есть они проанализируют этот заголовок и выдадут пользователю соответствующий ответ.

08:34

Англ.

08:44

Существует две стратегии. Один вот 303 URI, другой хэш URI, но мы не будем углубляться в подробности.

08:52

Англ.

09:01

Только скажу, что оба обеспечивают тот момент, что объекты и документы, которые они описывают, не перемешиваются.

09:13

Англ.

09:18

И люди, и машины получают соответствующие представления.

09:27

Англ.

09:35

Мы переходим к четвертому принципу, который касается связывания двух наборов данных.

09:41

Англ.

09:54

Базовое определение связи, или сслыки, линк, в том, что триплет соединяет URI разных дата-сетов, наборов данных, вот это, собственно, и есть связь, линк.

10:18

Англ.

10:34

Собственно, основная идея связанных данных состоит в том, чтобы применить общую гиперссылочную архитектуру воркволдвеб к тому, чтобы распределять структурированные данные по масштабу всего мира.

11:00

Англ.

11:11

То есть в общем интернете у нас есть связи между http-документами, но и мы хотим, соответственно, соединить данные внутри сферы данных.

11:27

Англ.

11:33

И хотя уже есть набор данных, которые связаны.

11:38

Англ.

11:45

Следовательно, исследовательская задача состоит в том, чтобы создать эффективные связи с высокой точностью.

11:58

Англ.

12:00

Давайте посмотрим на один пример.

12:05

Англ.

12:10

Дипипедия – это набор данных, конвертированных из википедии.

12:19

Англ.

12:23

И это URI-ресурс Санкт-Петербург.

12:27

Англ.

12:32

Это соответствует всем принципам связанных данных.

12:36

Англ.

12:40

Чуть-чуть позже посмотрим на подробности.

12:48

Англ.

12:55

Теперь. Когда мы поговорили о принципах, давайте поговорим о том, зачем использовать связанные данные.

13:01

Англ.

13:15

Давайте посмотрим на такой пример. Допустим, мы хотим найти в сети следующие вещи: жилье поблизости к двуязычному немецко-русскому детскому сады в Лейпциге.

13:30

Англ.

13:37

Ну, или, например, исследователи, которые работают с мультимедийными темами в Восточной Европе.

13:46

Англ.

13:57

Если мы будем искать эту информацию просто в сети, то она там есть, но она скрыта.

14:06

Англ.

14:13

Например, вот база данных, в которой содержится вся информация о детских садах в Лейпциге.

14:20

Англ.

14:26

В этой базе данных содержится все о риэлтерских предложениях в Германии.

14:33

Англ.

14:39

Тогда, чтобы ответить на первый вопрос, нужна такая поисковая система, которая объединяет обе эти базы данных.

14:48

Анг.

14:51

Как это сделать.

14:55

Англ.

15:02

Нам нужно следовать 5-звездочному. 5-звездочной схеме Тима Берносали.

15:11

Анг.

15:15

Для открытой сети данных.

15:19

Англ.

15:25

Он предложил 5-звездочную модель.

15:27

Англ.

15:33

В которой первая звезда, это значит, что данные доступны в сети по открытой лицензии.

15:40

Англ.

15:44

Две звезды, это значит, что данные не просто доступны, но они и структурированы.

15:49

Англ.

15:53

Три звезды означают, что используются не проприетарные форматы.

15:56

Англ.

16:00

Четыре звезды значат, что для идентификации вещей используется URI.

16:05

Англ.

16:05

Англ.

16:12

И пять звезд, это значит, что данные связываются с данными других людей, и таким образом получается контекст.

16:20

Англ.

16:24

На следующих слайдах мы посмотрим на примеры каждого, из этих случаев.

16:29

Англ.

16:42

Вообще звезд нет, да, у этого дата-каталога, в котором есть хорошие мета-данные, и его можно найти.

17:01

Англ.

17:03

Но это только первый шаг до этого – ноль звезд.

17:09

Англ.

17:19

Соответственно, первая звезда – это сделать лицензию открытой.

17:24

Англ.

17:30

Например, публикаторы могут распространять данные, чтобы сделать их более заметными. Издатели в этом случае, да, издатели.

17:46

Англ.

17:52

Например, издательский центр «Nature» сделал свои данные доступными в качестве связанных.

18:04

Англ.

18:09

Также открытыми для общественности делает данные государство.

18:21

Англ.

18:30

Это делается в целях рекламы для увеличения трафика.

18:34

Англ.

18:42

Здесь, например, данные по фотоаппарату «Никон».

18:50

Англ.

18:56

Бывают целые сообщества, в которых создаются, в которых наборы данных создаются общими усилиями.

19:04

Англ.

19:09

Одно из таких сообществ – это “Music Brains”, в котором есть данные по открытой лицензии.

19:17

Англ.

19:24

Которые содержат информацию о музыке, записях, песнях, исполнителях и так далее.

19:33

Англ.

19:37

Две звезды – предоставить структурированные данные.

19:42

Англ.

19:46

Разрешить повторное использование.

19:49

Англ.

19:54

Это позволяет предоставлять информацию конечным пользователям в разных форматах.

19:59

Англ.

20:02

Объединение данных с другими наборами данных.

20:06

Англ.

20:09

А также анализ данных с третьей стороны.

20:16

Англ.

20:23

Есть уже известные форматы.

20:26

Англ.

20:35

Существуют форматы, которые легко повторно использовать, и которые хорошо структурированы. Это, например, exel, csv, xml.

20:46

Англ.

20:53

Не очень хорошие для повторного использования, например, просто веб-сайты, или microsoft word.

21:03

Англ.

21:09

Плох для повторного использования формат pdf, потому что из него трудно извлекать данные.

21:16

Англ.

21:22

И очень плохи для повторного использования это графики и карты без числовых значений.

21:34

Англ.

21:39

Три звезды – это предоставление данных в неприприетакрных форматах.

21:44

Англ.

21:49

Потому что инструменты, которыми пользуются специалисты, очень часто нуждаются в специальных форматах.

22:00

Англ.

22:08

И инструменты, которые могут читать эти специфические форматы, мало у кого есть, они дорогие и, соответственно, такие данные трудно использовать повторно.

22:21

Англ.

22:26

Например. Инструменты для гео-данных, статистический набор данных и так далее.

22:37

Англ.

22:44

Непроприетарные форматы это, например, csv, xml, джейсон.

22:50

Англ.

22:54

Ну, и конечно, IDF, который также может получить 4 или 5 звезд.

23:03

Англ.

23:09

4 звезды, как мы уже говорили, это когда в качестве идентификаторов используется URI.

23:15

Англ.

23:22

Например, вот URF для этого набора данных на ББС по Мадонне.

23:30

Англ.

23:38

Дизайн URI желательно должен быть постоянным и не зависеть от, и он должен быть независимым от реализации.

23:55

Англ.

24:02

Да, зачем превращать локальный идентификатор в URI?

29:09

Англ.

29:12

Чтобы сделать их уникальными на мировом уровне.

24:15

Англ.

24:19

Чтобы показать, из какого источника они происходят.

24:23

Англ.

24:25

Сделать их разворачиваемыми.

24:27

Англ.

24:49

Когда кто-то ищет этот URI.