Что такое семантическая паутина
Элементы семантической паутины
Сложность структуры современного информационного общества постоянно растёт. В связи с этим, требования к эффективности алгоритмов обработки информации также увеличиваются. В последнее время наиболее популярными направлениями в этой области являются Data Mining (DM), Knowledge Discovery in Databases (KDD) и Machine Learning (ML). Все они предоставляют теоретическую и методологическую базу для изучения, анализа и понимания огромных объёмов данных.
Однако этих методов не достаточно, если сама структура данных будет настолько плохо пригодной для машинного анализа, как исторически сложилось на сегодняшний момент в Internet.
Для решения данной проблемы предпринята глобальная инициатива реорганизации структуры данных Internet в целях преобразования его в Семантическую Паутину предоставляющую возможности по эффективному поиску и анализу данных как человеком так и программным агентам.
В этой статье рассмотрены основные технологии позволяющие реализовать Semantic WEB.
Важнейшим недостатком существующей структуры Internet является то, что он практически не использует стандартов представления данных удобных для понимания компьютером, а вся информация предназначена в первую очередь для восприятия человеком. К примеру, для того, чтобы получить время работы семейного врача, достаточно зайти на сайт поликлиники и найти его в списке всех практикующих врачей. Однако, если это просто сделать человеку то программному агенту в автоматическом режиме это практически невозможно, если только не создавать его с учётом жёсткой структуры конкретного сайта.
Процесс дисциляции знания
Для решения подобных проблем используются онтологии, позволяющие описать любую предметную область в понятных для машины терминах и эффективно использовать мобильных агентов.
При использовании такого подхода, дополнительно к видимой человеком информации на каждой странице имеются также и служебная информация, позволяющая эффективно использовать данные программными агентами.
В свою очередь онтологии являются составной частью глобального видения развития сети Internet на новый уровень, называемый Semantic WEB (SW).
Стек понятий семантической паутины
Важнейшие понятия Semantic WEB
Для достижения столь сложной цели как глобальная реорганизация всемирной сети требуется целый набор взаимосвязанных технологий. На вышеприведённом рисунке приводится общая структура понятий Semantic WEB. Ниже приводится краткое описание ключевых технологий.
Semantic WEB
Понятие семантической паутины является центральным в современном понимании эволюции Internet. Считается, что в будущем данные в сети будут представлены как в обычном виде страниц, так и в виде метаданных, примерно в одинаковой пропорции, что позволит машинам использовать их для логических заключений реализуя все преимущества от использования методов ML. Повсеместно будут использоваться унифицированные идентификаторы ресурсов (URI) и онтологии.
Однако, не всё так радужно, существуют и сомнения в возможности полной реализации семантической паутины. Основные тезисы в пользу сомнения в возможности создания эффективной семантической паутины:
• Человеческий фактор люди могут врать, ленится добавлять метаописания, использовать неполные или просто неправильные метаданные. Как вариант решения данной проблемы можно использовать автоматизированные средства создания и редактирования метаданных.
• Излишнее дублирование информации, когда каждый документ должен иметь полное описание как для человека так и для машины.
Это отчасти решается внедрением микроформатов.
Кроме самих метаданных, важнейшей составной частью SW является семантические Web сервисы. Они являются источниками данных для агентов семантической паутины, изначально нацелены на взаимодействие с машинами, имеют средства рекламы своих возможностей.
URI (Uniform Resource Identifier)
URI является унифицированным идентификатором любого ресурса. Может указывать как на виртуальный так и на физический объект. Представляет собой уникальную символьную строку. Самым известным URI на сегодня является URL, являющейся идентификатором ресурса в Internet и дополнительно содержащий информацию о местонахождении адресуемого ресурса.
Базовый формат URI
Онтологии
Рассмотрим общую структуру применения онтологий.
Часть возможной онтологии адресов
Пример возможного правила в онтологии адресов. В случае использования данной онтологии для того, чтобы отослать письмо в американский университет, достаточно указать его название, программный агент сам найдёт его адрес на основе стандартной адресной информации с сайта университета, если нужно отослать письмо на конкретный факультет, то с сайта будет получен список всех факультетов и выбран нужный, и уже с сайта требуемого факультета взят адрес, далее, используя вышеприведённую онтологию программа определит формат адреса принятый в США.
Компьютер не понимает всей информации в полном смысле слова, но использование онтологий позволяет ему намного более эффективно и осмысленно пользоваться доступными данными.
Конечно, остаётся много вопросов, к примеру, как в начале агент найдёт сайт требуемого университета? Однако для этого уже сейчас разработаны средства. К примеру, Язык Онтологии Сетевых Сервисов (Web Services Ontology Language, ) который позволяет сервисам рекламировать свои возможности, услуги.
Таксономии
Таксономии являются одним из вариантов реализации онтологий. С помощью таксономии возможно определить классы, на которые делятся объекты некоторой предметной области, а также то, какие отношения существуют между этими классами. В отличие от онтологий, задача таксономий чётко определена в рамках иерархической классификации объектов.
Современные языки описания онтологий
RDF (Resource Description Framework) язык описания метаданных ресурсов, главной его целью является представление утверждений в виде одинаково хорошо воспринимаемом как человеком, так и машиной.
Атомарным объектом в RDF является триплет: субъект — предикат — объект. Считается, что любой объект, можно описать в терминах простых свойств и значений этих свойств.
Пример таблицы с выделенными параметрами
Пример таблицы с выделенными параметрами
Перед двоеточием должен указываться Уникальный Идентификатор Ресурса URI (Uniform Resource Identifier), однако в целях экономии трафика допускается указать только пространство имён.
Также, в целях улучшения восприятия человеком, существует практика представления схем RDI в. виде графов.
Пример схемы RDI в виде графа
Не соответствует ни одной дескрипционной логике, так — как в принципе является не разрешимым.
На данный момент язык OWL является основным инструментом описания онтологий.
Программные (мобильные, пользовательские) агенты (SA)
В рассматриваемой ПРО SA считается программой, действующей от имени пользователя, самостоятельно выполняющей сбор информации на протяжении некоторого, возможно длительного времени. Также важной их особенностью является возможность взаимодействовать с другими агентами и сервисами для достижения поставленной цели.
В отличии от ботов поисковых машин, которые просто сканируют диапазоны WEB страниц, агенты перемещаются от сервера к серверу, на отправном сервере он уничтожается, а на принимающем создаётся с полным набором собранной ранее информации. Такая модель позволяет агенту использовать доступные серверу, источники данных, которые не доступны посредством WEB интерфейса.
Понятно, что на сервере должна быть установлена платформа, позволяющая принять агента и обслужить его запросы. Также важно уделить внимание безопасности и целостности агентов. Для этого применяется подход выделенных пространств, когда агент работает в некотором безопасном окружении с ограниченными правами и возможностями воздействия на систему.
Агенты по своей реализации делятся на обычные и обучающиеся.
Если первые предназначены для выполнения чётко поставленных задач, то в основу вторых заложена гибкость, обычно они создаются на основе нейронных сетей. Использование нейронных сетей позволяет агенту постоянно подстраиваться под требования пользователя, а также более эффективно взаимодействовать с Internet.
Микроформаты
div class =»vevent» >
a class =»url» href =»http://www.web2con.com/» >
http://www.web2con.com/
a >
span class =»summary» >
Web 2.0 Conference
span > :
abbr class =»dtstart» title =»2007-10-05″ >
October 5
abbr >
—
abbr class =»dtend» title =»2007-10-20″ >
19
abbr >
,at the
span class =»location» >
Argent Hotel, San Francisco, CA
span >
div >
В данном примере приведено описание создания корневого класса контейнера с датой (class=«vevent») и соотнесение с событием некоей даты в стандартном формате ISO date.
В этой сфере существуют множество новых разработок, к примеру, для автоматического построения автоматических классификаторов используют разные уровни онтологий в зависимости от исследуемых данных.
Эта статья является попыткой объединения данных из различных источников для получения представления об общей структуре развития Семантической Паутины.
Семантическая паутина
Семанти́ческая паути́на (англ. Semantic Web ) — это направление развития Всемирной паутины, целью которого является представление информации в виде, пригодном для машинной обработки.
В обычной Паутине, основанной на HTML-страницах, информация заложена в тексте страниц и извлекается человеком с помощью браузера. Семантическая же паутина предполагает запись информации в виде семантической сети с помощью онтологий. Таким образом программа-клиент может непосредственно извлекать из паутины факты и делать из них логические заключения. Семантическая паутина работает параллельно с обычной Паутиной и на её основе, используя протокол HTTP и идентификаторы ресурсов URI.
Содержание
Основная идея
Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам.
Критика
Практическая нереализуемость
Комментаторы указывают на различные причины, которые могут быть препятствием к этому, начиная с человеческого фактора [7] (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на различимые концепты. Это ставит под сомнение возможность существования онтологии верхнего уровня, критической для семантической паутины. Аристотель в «Топике» использует понятие differentia specifica, или наличие у понятий различимого качества, как основу для группировки понятий в классы. Философ уверен в наличии бесконечного числа понятий, из чего следует бесконечность числа классов, в которые их можно объединить. Для выделения такого количества классов необходимо бесконечно много различимых качеств, наличие которых Аристотель подвергает сомнению.
Дублирование информации
Невозможность получения коммерческой выгоды
Известно, что основное финансирование современных интернет-ресурсов (за исключением строго некоммерческих проектов) обеспечивают рекламодатели. Главный критерий, от которого зависит стоимость рекламного места — посещаемость сайта. Однако в случае реализации семантических поисковых систем, которые будут сами отбирать и сразу предоставлять нужную пользователю информацию, отпадает необходимость посещать сайт — источник материала, а значит пользователь не увидит рекламу, и как следствие прекратится финансирование интернет-проектов. [10]
Реализация
Языки описания
Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:
Логический вывод
Форматы описания метаданных в семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Формализм, лежащий в основе формата, даёт возможность делать заключения о свойствах программ, обрабатывающих данные в этом формате.
Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных, логики предикатов и т. д.
Проекты
Дублинское ядро
Одним из первых серьёзных и популярных проектов, основанных на принципах семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core ), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого — разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF. [13]
RSS (версий 0.90 и 1.0)
Версии 0.90 и 1.0 формата RSS основаны на RDF. Информация в нём представляется как и в RDF, тройками субъект-отношение-объект. Необходимо отметить, что несмотря на то, что ему присущи многие недостатки семантической паутины (например, дублирование информации), этот простейший формат быстро стал чрезвычайно популярным за счёт узкой категоризации подмножества используемых метаданных. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS — узкоспециализированное подмножество RDF. [14]
Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf ). [15]
Проект «Friend of a Friend» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д. [16]
DBpedia
Семантическая паутина
Семанти́ческая паути́на (англ. Semantic web ) — новая концепция развития Всемирной паутины и сети Интернет, принятая и продвигаемая Консорциумом Всемирной паутины. Иногда также упоминается как семантический веб.
Содержание
Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в сети информацию более понятной для компьютеров. Известно, что почти вся информация в Интернете находится в текстовой форме. Не секрет также, что прогресс в области обработки человеческой речи (англ. Natural Language Processing, NLP ) идёт очень медленно. Компьютеры не могут воспринять и осмыслить словесную информацию, размещённую в Интернете, и в ближайшее время, видимо, не смогут. Тогда встаёт вопрос — как же заставить компьютеры понимать смысл размещённой в сети информации и научить компьютеры пользоваться ею? На этот вопрос и призвана ответить концепция семантической паутины. Слово «семантическая» в данном случае означает «осмысленная», «понятная».
Основная идея
В настоящее время компьютеры принимают довольно ограниченное участие в формировании и обработке информации в сети Интернет. Трудно вообразить, но это так. Функции компьютеров в основном сводятся к хранению, отображению и поиску информации. В то же время создание информации, её оценку, классификацию и актуализацию — всё это по-прежнему выполняет человек. Как включить компьютер в эти процессы? Если компьютер пока нельзя научить понимать человеческий язык, то нужно использовать язык, который был бы понятен компьютеру. То есть, в идеальном варианте вся информация в Интернете должна размещаться на двух языках: на человеческом языке для человека и на компьютерном языке для понимания компьютера. Семантическая паутина — это концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру.
Реализация
Для создания понятного компьютеру описания ресурса в семантической паутине используется формат RDF (англ. Resource Description Framework ), который основан на синтаксисе XML и использует идентификаторы URI для обозначения ресурсов. RDF был утверждён как стандарт W3C в феврале 2004 года. RDF — это система описания сетевых ресурсов, понятная компьютеру. Формат RDF предназначен для хранения метаданных (метаданные — это данные о данных). В соответствии с концепцией семантической паутины, описания в формате RDF должны прикрепляться к каждому сетевому ресурсу. Документы RDF должны обрабатываться компьютером автоматически, RDF не предназначен для прочтения и использования человеком. К настоящему времени формат RDF уже устоялся и получил широкое распространение, он служит каркасом для создания семантической паутины.
RDFS (англ. RDF Schema ) — это важная надстройка над RDF, позволяющая создавать классы и свойства (как в объектно-ориентированном программировании в рамках конкретного приложения).
Плюсы и минусы
Положительная сторона концепции очевидна. Семантическая паутина открывает доступ к чётко структурированной информации для любых приложений, независимо от платформы, независимо от языков программирования. Программы смогут сами находить нужные ресурсы, обрабатывать информацию, обобщать данные, выявлять логические связи, делать выводы и даже принимать решения на основе этих выводов. При широком распространении и грамотном внедрении семантическая паутина может вызвать революцию в Интернете.
Главный минус концепции — сложность внедрения. Формат RDF был разработан людьми с академическим образованием и изначально не был рассчитан на применение рядовыми пользователями Интернета. Даже многим веб-мастерам и программистам бывает сложно освоить RDF и OWL. Кроме того, сам смысл концепции ещё не доведён до широких кругов пользователей. Работа по популяризации семантической паутины ещё не на достаточном уровне, не хватает практических примеров. Ощущается явная нехватка утилитарных программ, способных облегчить разработку RDF-документов для обычных пользователей.
История
Автором идеи семантической паутины считается Тим Бернерс-Ли. История концепции уходит корнями в середину 90-х годов XX века, первые детализированные публикации относятся к 1998 году. С 1999 года проект семантической паутины развивается под эгидой Консорциума Всемирной паутины. В период с 1999 по 2004 год работу над концепцией вела группа разработчиков «RDF Interest Group», в 2004 году группа была переименована в «Semantic Web Interest Group».
Первым серьёзным и популярным проектом, основанным на принципах семантической паутины, стал проект « Дублинское ядро » (англ. Dublin Core Metadata Initiative, DCMI ). Это открытый проект, цель которого — разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой специальных словарей метаданных (англ. metadata vocabularies ), стандартизирующих описания ресурсов Всемирной паутины в формате RDF.
Перспективы
Литература
Семантическая паутина
Семанти́ческая паути́на (англ. Semantic web ) — новая концепция развития Всемирной паутины и сети Интернет, принятая и продвигаемая Консорциумом Всемирной паутины. Иногда также упоминается как семантический веб.
Содержание
Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в сети информацию более понятной для компьютеров. Известно, что почти вся информация в Интернете находится в текстовой форме. Не секрет также, что прогресс в области обработки человеческой речи (англ. Natural Language Processing, NLP ) идёт очень медленно. Компьютеры не могут воспринять и осмыслить словесную информацию, размещённую в Интернете, и в ближайшее время, видимо, не смогут. Тогда встаёт вопрос — как же заставить компьютеры понимать смысл размещённой в сети информации и научить компьютеры пользоваться ею? На этот вопрос и призвана ответить концепция семантической паутины. Слово «семантическая» в данном случае означает «осмысленная», «понятная».
Основная идея
В настоящее время компьютеры принимают довольно ограниченное участие в формировании и обработке информации в сети Интернет. Трудно вообразить, но это так. Функции компьютеров в основном сводятся к хранению, отображению и поиску информации. В то же время создание информации, её оценку, классификацию и актуализацию — всё это по-прежнему выполняет человек. Как включить компьютер в эти процессы? Если компьютер пока нельзя научить понимать человеческий язык, то нужно использовать язык, который был бы понятен компьютеру. То есть, в идеальном варианте вся информация в Интернете должна размещаться на двух языках: на человеческом языке для человека и на компьютерном языке для понимания компьютера. Семантическая паутина — это концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру.
Реализация
Для создания понятного компьютеру описания ресурса в семантической паутине используется формат RDF (англ. Resource Description Framework ), который основан на синтаксисе XML и использует идентификаторы URI для обозначения ресурсов. RDF был утверждён как стандарт W3C в феврале 2004 года. RDF — это система описания сетевых ресурсов, понятная компьютеру. Формат RDF предназначен для хранения метаданных (метаданные — это данные о данных). В соответствии с концепцией семантической паутины, описания в формате RDF должны прикрепляться к каждому сетевому ресурсу. Документы RDF должны обрабатываться компьютером автоматически, RDF не предназначен для прочтения и использования человеком. К настоящему времени формат RDF уже устоялся и получил широкое распространение, он служит каркасом для создания семантической паутины.
RDFS (англ. RDF Schema ) — это важная надстройка над RDF, позволяющая создавать классы и свойства (как в объектно-ориентированном программировании в рамках конкретного приложения).
Плюсы и минусы
Положительная сторона концепции очевидна. Семантическая паутина открывает доступ к чётко структурированной информации для любых приложений, независимо от платформы, независимо от языков программирования. Программы смогут сами находить нужные ресурсы, обрабатывать информацию, обобщать данные, выявлять логические связи, делать выводы и даже принимать решения на основе этих выводов. При широком распространении и грамотном внедрении семантическая паутина может вызвать революцию в Интернете.
Главный минус концепции — сложность внедрения. Формат RDF был разработан людьми с академическим образованием и изначально не был рассчитан на применение рядовыми пользователями Интернета. Даже многим веб-мастерам и программистам бывает сложно освоить RDF и OWL. Кроме того, сам смысл концепции ещё не доведён до широких кругов пользователей. Работа по популяризации семантической паутины ещё не на достаточном уровне, не хватает практических примеров. Ощущается явная нехватка утилитарных программ, способных облегчить разработку RDF-документов для обычных пользователей.
История
Автором идеи семантической паутины считается Тим Бернерс-Ли. История концепции уходит корнями в середину 90-х годов XX века, первые детализированные публикации относятся к 1998 году. С 1999 года проект семантической паутины развивается под эгидой Консорциума Всемирной паутины. В период с 1999 по 2004 год работу над концепцией вела группа разработчиков «RDF Interest Group», в 2004 году группа была переименована в «Semantic Web Interest Group».
Первым серьёзным и популярным проектом, основанным на принципах семантической паутины, стал проект « Дублинское ядро » (англ. Dublin Core Metadata Initiative, DCMI ). Это открытый проект, цель которого — разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой специальных словарей метаданных (англ. metadata vocabularies ), стандартизирующих описания ресурсов Всемирной паутины в формате RDF.