https://electroinfo.net

girniy.ru 1 2 3

00:00


Лектор Амрапали Завери говорит по-английски.


00:05

Сегодня я буду говорить о вводных вещах в связанные данные.


00:14

по-английски.


00:20

Я буду говорить о жизненном цикле связанных данных и о принципах, которые стоял за этим.


00:27

по-английски.


00:30

Зачем использовать связанные данные, а также я буду приводить примеры.


00:35

по-английски.


00:39

И в завершении я поговорю о достижениях и о проблемах.


00:43

по-английски.


00:48

Во второй части презентации я поговорю о качестве данных, о направлениях и способах измерения качества актуальности связанных данных.


01:05

по-английски.


01:10

Также покажу инструменты для оценки качества связанных данных.


01:18

по-английски.


01:23

Начнем с принципов связанных данных и поговорим о том, что такое связанные данные.


01:28

по-английски.


01:36

Термин «связанные данные» относится к набору лучших практик для публикации и связывания структурированных данных в сети.


01:51

по-английски.


01:53

Существует пять принципов связанных данных.


01:57

по-английски.


02:01

Первое, это использовать URI как название для объектов.


02:08

по-английски.


02:12

URI – это универсальный идентификатор ресурсов.


02:18

по-английски.


02:25

Второй принцип – использовать URI http так, чтобы люди могли находить, искать эти имена.


02:35

по-английски.


02:27

Третий принцип состоит в том, что когда кто-то ищет по URI, должна поступать полезная информация, в которой используются стандарты РДФ спаркл.


03:06

по-английски.


03:13

И последний принцип, это принцип в том, чтобы включать ссылки на другие URI, чтобы можно было находить больше объектов.


03:27

по-английски.


03:33

Это облако связанных открытых данных на момент 2011 года.


03:38

Анг.


03:45

Все эти круги отображают, изображают наборы данных, которые были преобразованы, связаны в соответствии с этими принципами.


03:56

Анг.


04:04

Разные цвета соответствуют разным доменам.


04:07

Анг.


04:13

География. Областям знания, не доменам, областям знания. География, науки о жизни, правительство.


04:26

Англ.


04:30

Давайте посмотрим на принципы немного в больших подробностях.


04:35

Англ.


04:46

Ссылки URI должны отображать, должны идентифицировать не только документы веб и цифровой контент, но также и объекты реального мира и абстрактные понятия.



05:06

Англ.


05:17

Например, уникальные ресурсы, которые идентифицируют людей, места.


05:22

Англ.


05:27

Ну и пример абстрактных вещей, например, тип отношений, когда кто-то кого-то знает.


05:35

Анг.


05:39

Например, Иван знаем Амрапали.


05:42

Англ.


05:47

И второй принцип использования URI http.


05:51

Анг.


05:54

Который позволяет повторно использовать веб архитектуру.


05:59

Англ.


06:04

И делает акцент на веб и семантик веб.


06:11

Англ.


06:15

Потому что это позволяет дереферисинг ресурсов.


06:23

Англ.


06:29

А также повторное использование стандартных инструментов для обеспечения безопасности и так далее.


06:37

Англ.


06:40

Позже я покажу примеры этого.


06:45

Англ.


06:54

Третий принцип состоит в том, что люди и машины должны, что у людей и машин должна быть возможность получать должное представление о ресурсах.


07:05

Англ.


07:13

Для людей это должен быть html, для машин это должен быть RDF.


07:17

Англ.


07:25

Для этого существует механизм http, который называется “content negotiation”.


07:33

Англ.


07:49

Основная идея в том, что клиент http посылает http-заголовки с каждым запросом для того, чтобы показать какого типа документы предпочтительны.


08:02

Англ.


08:09

Это могут быть документы html, RDF, триплеты.



08:17

Англ.


08:25

То есть они проанализируют этот заголовок и выдадут пользователю соответствующий ответ.


08:34

Англ.


08:44

Существует две стратегии. Один вот 303 URI, другой хэш URI, но мы не будем углубляться в подробности.


08:52

Англ.


09:01

Только скажу, что оба обеспечивают тот момент, что объекты и документы, которые они описывают, не перемешиваются.


09:13

Англ.


09:18

И люди, и машины получают соответствующие представления.


09:27

Англ.


09:35

Мы переходим к четвертому принципу, который касается связывания двух наборов данных.


09:41

Англ.


09:54

Базовое определение связи, или сслыки, линк, в том, что триплет соединяет URI разных дата-сетов, наборов данных, вот это, собственно, и есть связь, линк.


10:18

Англ.


10:34

Собственно, основная идея связанных данных состоит в том, чтобы применить общую гиперссылочную архитектуру воркволдвеб к тому, чтобы распределять структурированные данные по масштабу всего мира.


11:00

Англ.


11:11

То есть в общем интернете у нас есть связи между http-документами, но и мы хотим, соответственно, соединить данные внутри сферы данных.


11:27

Англ.


11:33

И хотя уже есть набор данных, которые связаны.


11:38

Англ.


11:45

Следовательно, исследовательская задача состоит в том, чтобы создать эффективные связи с высокой точностью.


11:58

Англ.


12:00

Давайте посмотрим на один пример.


12:05

Англ.


12:10

Дипипедия – это набор данных, конвертированных из википедии.


12:19

Англ.


12:23

И это URI-ресурс Санкт-Петербург.


12:27

Англ.


12:32

Это соответствует всем принципам связанных данных.


12:36

Англ.


12:40

Чуть-чуть позже посмотрим на подробности.


12:48

Англ.


12:55

Теперь. Когда мы поговорили о принципах, давайте поговорим о том, зачем использовать связанные данные.


13:01

Англ.


13:15

Давайте посмотрим на такой пример. Допустим, мы хотим найти в сети следующие вещи: жилье поблизости к двуязычному немецко-русскому детскому сады в Лейпциге.


13:30

Англ.


13:37

Ну, или, например, исследователи, которые работают с мультимедийными темами в Восточной Европе.


13:46

Англ.


13:57

Если мы будем искать эту информацию просто в сети, то она там есть, но она скрыта.


14:06

Англ.


14:13

Например, вот база данных, в которой содержится вся информация о детских садах в Лейпциге.


14:20

Англ.


14:26

В этой базе данных содержится все о риэлтерских предложениях в Германии.


14:33

Англ.


14:39

Тогда, чтобы ответить на первый вопрос, нужна такая поисковая система, которая объединяет обе эти базы данных.


14:48

Анг.


14:51

Как это сделать.


14:55

Англ.


15:02

Нам нужно следовать 5-звездочному. 5-звездочной схеме Тима Берносали.


15:11

Анг.


15:15

Для открытой сети данных.



15:19

Англ.


15:25

Он предложил 5-звездочную модель.


15:27

Англ.


15:33

В которой первая звезда, это значит, что данные доступны в сети по открытой лицензии.


15:40

Англ.


15:44

Две звезды, это значит, что данные не просто доступны, но они и структурированы.


15:49

Англ.


15:53

Три звезды означают, что используются не проприетарные форматы.


15:56

Англ.


16:00

Четыре звезды значат, что для идентификации вещей используется URI.


16:05

Англ.


16:05

Англ.


16:12

И пять звезд, это значит, что данные связываются с данными других людей, и таким образом получается контекст.


16:20

Англ.


16:24

На следующих слайдах мы посмотрим на примеры каждого, из этих случаев.


16:29

Англ.


16:42

Вообще звезд нет, да, у этого дата-каталога, в котором есть хорошие мета-данные, и его можно найти.


17:01

Англ.


17:03

Но это только первый шаг до этого – ноль звезд.


17:09

Англ.


17:19

Соответственно, первая звезда – это сделать лицензию открытой.


17:24

Англ.


17:30

Например, публикаторы могут распространять данные, чтобы сделать их более заметными. Издатели в этом случае, да, издатели.


17:46

Англ.


17:52

Например, издательский центр «Nature» сделал свои данные доступными в качестве связанных.


18:04

Англ.


18:09

Также открытыми для общественности делает данные государство.



18:21

Англ.


18:30

Это делается в целях рекламы для увеличения трафика.


18:34

Англ.


18:42

Здесь, например, данные по фотоаппарату «Никон».


18:50

Англ.


18:56

Бывают целые сообщества, в которых создаются, в которых наборы данных создаются общими усилиями.


19:04

Англ.


19:09

Одно из таких сообществ – это “Music Brains”, в котором есть данные по открытой лицензии.


19:17

Англ.


19:24

Которые содержат информацию о музыке, записях, песнях, исполнителях и так далее.


19:33

Англ.


19:37

Две звезды – предоставить структурированные данные.


19:42

Англ.


19:46

Разрешить повторное использование.


19:49

Англ.


19:54

Это позволяет предоставлять информацию конечным пользователям в разных форматах.


19:59

Англ.


20:02

Объединение данных с другими наборами данных.


20:06

Англ.


20:09

А также анализ данных с третьей стороны.


20:16

Англ.


20:23

Есть уже известные форматы.


20:26

Англ.


20:35

Существуют форматы, которые легко повторно использовать, и которые хорошо структурированы. Это, например, exel, csv, xml.


20:46

Англ.


20:53

Не очень хорошие для повторного использования, например, просто веб-сайты, или microsoft word.


21:03

Англ.


21:09

Плох для повторного использования формат pdf, потому что из него трудно извлекать данные.



21:16

Англ.


21:22

И очень плохи для повторного использования это графики и карты без числовых значений.


21:34

Англ.


21:39

Три звезды – это предоставление данных в неприприетакрных форматах.


21:44

Англ.


21:49

Потому что инструменты, которыми пользуются специалисты, очень часто нуждаются в специальных форматах.


22:00

Англ.


22:08

И инструменты, которые могут читать эти специфические форматы, мало у кого есть, они дорогие и, соответственно, такие данные трудно использовать повторно.


22:21

Англ.


22:26

Например. Инструменты для гео-данных, статистический набор данных и так далее.


22:37

Англ.


22:44

Непроприетарные форматы это, например, csv, xml, джейсон.


22:50

Англ.


22:54

Ну, и конечно, IDF, который также может получить 4 или 5 звезд.


23:03

Англ.


23:09

4 звезды, как мы уже говорили, это когда в качестве идентификаторов используется URI.


23:15

Англ.


23:22

Например, вот URF для этого набора данных на ББС по Мадонне.


23:30

Англ.


23:38

Дизайн URI желательно должен быть постоянным и не зависеть от, и он должен быть независимым от реализации.


23:55

Англ.


24:02

Да, зачем превращать локальный идентификатор в URI?


29:09

Англ.


29:12

Чтобы сделать их уникальными на мировом уровне.


24:15

Англ.


24:19

Чтобы показать, из какого источника они происходят.


24:23

Англ.


24:25

Сделать их разворачиваемыми.


24:27

Англ.


24:49

Когда кто-то ищет этот URI.


следующая страница >>