събота, 24 май 2008 г.

Попитай интернет

Капитал - 49 стр.
Попитай интернет

Може да не ви се вярва, но процентът на хората, които боравят с компютър и интернет свободно, не е никак висок в световен мащаб. Всъщност широките маси тепърва ще се сблъскат с глобалната мрежа и в частност с намирането на информация там. Как се прави това в момента? Всички популярни уебплатформи, които търсят информация из мрежата, работят с ключови думи. Тоест това, което прави великият алгоритъм на Google, е да трансформира търсената дума/думи като поредица от символи и да ги сравни с колкото се може повече страници в интернет, търсейки съвпадения. След това подрежда резултатите по спорно обективни критерии. Това, което направи Google търсачка номер едно в света, е именно сравнителната безпристрастност на търсенето. Остава обаче въпросът доколко изведените резултати наистина се покриват с това, което ни трябва. По този повод създателят на младата технологична компания Powerset Барни Пел, цитиран от списание Fortune, задава реторичния въпрос:
"Защо трябва да търсим като неандерталци?"
Алтернативата, която неговата компания предлага, е услуга за търсене, която би трябвало да "разбира" какво я питаме. Софтуерът не просто възприема думите като поредица от символи, а се опитва да вникне в техния смисъл. Това позволява търсене на цели фрази и въпроси, зададени с кратки изречения. Според Барни Пел това е естествен начин за издирване на информация, който ще спести на новите уебжители необходимостта да се учат на неандерталския език, с който говорим на компютрите си днес.
Powerset не е първата компания, която се опитва да създаде семантична търсачка. Тук обаче възниква въпросът: какво точно може да предложи за момента тази компания? На този етап едноименната услуга работи с масива от информация, който е въведен във Wikipedia, както и с базата данни freebase. Това ограничение е съществен недостатък, който често бива изтъкван от много технологични експерти. Въпреки това, ако технологията за търсене, разработена от Powerset, се окаже ефективнa и достатъчно добре финансирана, не е изключено да обхване цялото уебпространство.
"За разлика от другите търсачки, които индексират ключови думи, Powerset прави по-дълбок лингвистичен анализ на всяко изречение, което прочита", твърдят представители на компанията. Тези думи могат да бъдат проверени и на практика. Вече има няколко сравнителни теста на Google с Powerset. Като цяло резултатите са спорни, а и донякъде неточни, при положение че двете системи работят с различен масив от информация. Powerset борави не само с ключови думи, но и с фрази и въпроси, зададени на ежедневен английски
Например, ако запитате къде е еди-кой си град или държава, ще получите директен отговор в допълнение към традиционния списък с линкове. При други въпроси на екрана пред вас ще се появи кратко резюме на това, което търсите. Разликата от Google е именно в изкарването на сбита информация, конкретно отговаряща на въпроса ви. Полезно е и приложението, наречено Factz. То разчита текста на дадена страница и ви снабдява с извадки от неговата същина. Според създателите на услугата това се прави чрез сложен синтактичен анализ на изреченията. Крайният резултат е меню, в което под формата на линкове са извадени ключови думи и фрази от текста. Така само с един клик върху тях се озовавате точно на мястото, където е информацията, от която имате нужда.
През изминалата година на хоризонта се появиха и някои други проекти, които се самоопределиха като семантични търсачки. Като цяло този подход е добре приет при специфични, немасови проекти - боравене с корпоративни, научни и други масиви от информация. Един от най-интересните проекти от този тип се нарича Hakia. В средата на 2007 започнаха начални тестове на въпросния уебинструмент, който според създателите му също анализира цели изречения, а не само ключовите думи, зададени при търсене. През март пък стана ясно, че Yahoo ще възприеме някои стандарти от "семантичния уеб" в опит да подобри обработката на огромните масиви с информация в интернет, а както и отговорите на въпросите, зададени в тяхната търсачка.
На този етап все още е рано да се изказват крайни мнения за търсачката Powerset и нейните посестрими. При сравнение сask.com на моменти творението на младата компания изостава сериозно зад ветерана в тази област. Разбира се, тук не говорим за директно сравнение на технологии поради факта, че ask.com не разчитат на семантични елементи в търсенето, а по-скоро сравняваме крайния резултат. За въпроси от типа на "какво е разстоянието между София и Белград" четвъртата търсачка в интернет пространството се справя перфектно, за разлика от любопитния проект на Барни Пел. Той обаче дава точни резултати, когато го запитате за рожденото място или година на известни личности.
Уеб 3.0
От появата на бял свят преди около две години и половина до днес около Powerset бушува същинска словесна буря. Най вече заради всеобщото въодушевление около т.нар. семантичен уеб, или уеб 3.0, което се възприема като следващо ниво в развитието на интернет. Определена част от технологичните наблюдатели не са особено впечатлени от Барни Пел и неговия екип, който получи 12.5 млн. долара финансиране от компании за рисково инвестиране. "Определено има част от пазара, която си мисли, че сме луди", казва Чарлз Молдо, партньор във Foundation Capital, подкрепящ инициативата Powerset. "През 2000 някои хора казваха, че Google са луди", добавя той пред в. "Ню Йорк таймс".
Скептицизмът на анализаторите се подкрепя и от факта, че дори Powerset да намери още финансиране или да бъде купена от технологичен колос като Microsoft (имаше слухове, че редмъндският гигант е хвърлил око на младата компания), бъдещето й не е сигурно. Първо заради недоказаната комерсиална ефективност на иновативния метод за търсене. Второ, заради времето, което ще е необходимо, за да обхване цялата интернет мрежа. А също така и заради навика на хората да "търсят като неандерталци", който трудно ще се промени. Нито един от тези аргументи обаче не звучи достатъчно убедително, при положение че става въпрос за битка за пазар, който според eMarketer през 2011 ще достигне 16 млрд. долара само в САЩ (като приходи от реклама при търсачките).
събота, 24 май 2008 04:13:10

Няма коментари: