събота, 4 октомври 2008 г.

По-структуриран интернет

Капитал - IT Software - 22 стр.
По-структуриран интернет

Асен ГЕОРГИЕВ

Семантичните технологии са на път да сложат ред в информационния хаос, който днес цари в глобалната мрежа
Ако зададете на Google въпрос от типа „къде да отида на почивка", най-много да получите линк към страницата на добър психиатър - никак не е прието хората да си „говорят" с машините по „човешкия начин". Това обаче скоро може да се промени. Семантичните технологии са ключът към революцията в общуването с компютрите. Целта им е проста - информацията, която съхраняваме, да бъде по-добре подредена и свързана помежду си, за да можем да намираме по-лесно това, което търсим 8 огромния океан от информация, наречен интернет. Вече повече от десет години идеята за изграждане на семантични мрежи (Semantic Web) се обсъжда усилено в изследователските среди. В Европа и САЩ има десетки научни програми, 6 които се инвестират стотици милиони долари за развитието на тези технологии. Основен поддръжник в начинанието е самият Тим Бърнърс Лий - създател на най-разпространената услуга в интернет - World Wide Web, u неговата организация W3C (World Wide Web Consortium). След като през последните години бе обявена стандартизацията на програмни езици и бе скицирана рамка за бъдещото развитие на семантичните мрежи, през януари W3C публикува спецификации на езика SPARQL, чрез който ще се правят запитвания (заявки) към семантични мрежи. Налагането на SPARQL е третата сериозна стъпка към създаването на солидна основа за развитието на семантичните технологии. Предишните две бяха създаването на механизма за описание на ресурсите RDF (Resource Definition Framework), който служи за добавяне на метаданни в отделни документи или уебстраници и онтологичния език OWL (Web Ontology Language), който надгражда RDF. SPARQL позволява да се извличат данни от разпределени източници и може да служи като среда за интегриране на разнородни информации. Тим Бърнърс Лий твърди, че значението на SPARQL за семантичните мрежи е както това на SQL за релационните бази данни.
На практика
„Основната идея на семантични технологии е компютърът да има по-високо ниво на разбиране на информацията, за да може да прави повече неща автоматично", обяснява Атанас Киряков, управител на „Онтотекст" - изследователска лаборатория към „Сирма груп", част от която наскоро бе закупена от инвестиционния фонд NEVEQ. Те. идеята на този етап не е да научим компютрите да „говорят" с нас, а no-скоро да могат да изпълняват повече полезни функции, като им позволим да разбират информацията, с която боравят. За иелта трябва просто да им я предоставим на „компютърен" език (RDF). „Онтотекст" работи със семантични технологии от години и е реализирала няколко много успешни проекта. Голяма част от разработените от компанията технологии намират приложение в т.нар науки за живота - биоинформатика и биомедицина, разказва Атанас Киряков. „Интересен и важен за нас проект беше в една от големите фармацевтични компании - AstraZeneca. Там внедрихме пълния си спектър технологии, семантични бази данни, за да интегрираме информацията от различни източници и да обработим текстовите документи (клиничните изследвания), за да направим по-ефективно търсенето", допълва той. Доказателство за универсалността на семантичните технологии, създавани от „Онтотекст", е и дейността на българско-британската компания Innovantage, която вече няколко години използва разработки на „Онтотекст" за откриване и анализ на обяви за работа в онлайн пространството на Великобритания. Компанията е джойнт венчър между „Онтотекст" и Innovantage, a благодарение на технологиите, интегрирани от българското изследователско звено, при всяко търсене се разглеждат повече от 600 хил. обяви за работа, публикувани в различни сайтове. По-важното е обаче, че семантичните технологии спомагат да се избегне дублирането на едни и същи обяви, твърди Киряков.
Потенциално приложение
Семантичната мрежа се възприема като следващо ниво в развитието на World Wide Web системата. И докато изграждането на глобална семантична мрежа изглежда no-скоро като добро пожелание за бъдещето, вече съществуват отделни приложения (като тези, споменати no-горе), които работят, използвайки базови семантични технологии. В момента пазарът за такива приложения според анализаторската компания Gartner е от порядъка на 1 млрд. долара. Атанас Киряков пък смята, че към днешна дата обемът на продажбите в тази сфера се движи в рамките на 300 млн. долара. Съществуват крайно оптимистични прогнози, според които пазарът на семантични технологии ще достигне 50 млрд. долара през 2010 г., но те не изглеждат много убедителни. Според Gartner след две години ще се харчат около 10 млрд. в глобален план - прогноза, която също изглежда малко преувеличена, но не и нереална. Реално погледнато, интеграцията на семантични технологии не е евтина работа. Според добре запознати с материята експерти инвестицията на една международна компания с няколко хиляди служители започва от 200 хил. долара. Подобни системи обаче са много полезни за големите корпорации, защото спомагат за по-добрия обмен, структуриране и търсене на информация. За да изживеят своя бум в световен мащаб, семантичните технологии трябва да послужат като основа за комерсиални продукти. Със сигурност има няколко сфери, в които би могъл да се реализира подобен пробив. Подобрените интернет търсачки, които ще могат да отговарят на конкретни въпроси, са само една от тях. Основният проблем обаче в момента е прибавянето на метаинформация към съществуващите документи и сайтове. Потенциално приложение семантичните технологии могат да намерят и в семантичните бази данни, базирани на знание (Semantic Knowledge Database). Вече има два такива примерни проекта и това са Twine u Freebase. И двата приличат до голяма степен на свободната енциклопедия Wikipedia, но Twine е насочена към персоналните семантични бази данни, a Freebase е по-скоро смислов еквивалент на Wikipedia. Създаването на интернет търсачки, базирани изцяло или отчасти на семантични технологии, определено е сферата, която привлича интереса на онлайн аудиторията. Опити в тази насока вече се правят с Hakia u Powerset. Идеята е търсенето в тези енджини да се възползва от семантичните технологии и потребителите да могат да задават въпроси, на които да получават смислени отговори. За момента и двете инициативи са no-скоро далеч от крайната цел. Въпреки това обаче интегрирането на семантични технологии в процеса на търсене при всички положения ще донесе положителни резултати в дългосрочен план. А само след няколко месеца ще можем да видим подобен проект на местно ниво, защото „Онтотекст" и „Hem Инфо БГ" разработват търсачка, която ще индексира българското уебпространство. „Бета версията й трябва да се появи до около три месеца", споделя Атанас Киряков.
събота, 4 октомври 2008 04:51:22

Няма коментари: