Wat de Dublin Core mislukking ons kan leren

20 september 2009 om 19:52

dublin-coreHet web is als een bibliotheek waar alle boeken op een grote hoop gegooid zijn; er zit totaal geen orde in. Oké.. er zijn wel zoekmachines, maar met duizenden resultaten voor één zoekopdracht is dit nou ook weer niet optimaal. In lijn met de ideeën achter een nieuw semantisch internet werd Dublin Core metadata geïntroduceerd. Het beloofde een revolutie te worden. De manier waarop het web gebruikt werd zou nooit meer hetzelfde zijn. De mislukking die het uiteindelijk geworden is, is een uitstekend voorbeeld van de moeilijke weg die het semantische web nog heeft af te leggen.

Een korte uitleg

Het semantische web is een nieuwe versie van het internet. Het web wordt hierbij een universeel medium waarbij alle soorten informatie (mensen, foto’s, spraak, gebeurtenissen, plaatsen, organisaties, etc.) kunnen worden uitgewisseld. Als de computers de betekenis achter de data begrijpen (relaties, beschrijvingen, etc.), dan zijn ze in staat tot het oplossen van ongelofelijk moeilijke vraagstukken. Deze betekenis wordt aangegeven door middel van metadata.

Metadata is data over andere data. De titel‐, artist‐ en albuminformatie op je Ipod is hiervan een voorbeeld. Dublin Core metadata bestaat uit 15 elementen (title, creator, date, etc.) en heeft als voordeel dat het voor alles te gebruiken is (niet alleen voor websites) en dat het uitwisselbaar is met andere standaarden. Alle mogelijke beperkingen werden in dit systeem overwonnen: de set kon makkelijk worden uitgebreid; er werden voor iedereen te begrijpen termen gebruikt; taalbarrières werden overwonnen en het was vooral heel simpel te gebruiken.

De ondergang van Dublin Core

Er zijn verschillende factoren aan te wijzen waardoor dit idee uiteindelijk is mislukt. Elk ander semantisch project heeft dan ook rekening te houden met deze factoren wil het een succes worden.

Geen ondersteuning van marktleider (Google)

Over het algemeen wordt iets alleen een succes als de markt er ook echt iets aan heeft. En laat dat nou net hier niet het geval zijn. Google, de grootste zoekmachine van dit moment, ondersteunt het niet. Daarmee is eigenlijk alles al gezegd, want waarom zou je tijd steken in iets wat toch niet gebruikt wordt door je doelgroep. Het heeft nu gewoon geen zin.

Zolang Google marktleider is zijn er maar weinig redenen voor ontwikkelaars om hun producten semantisch aan te bieden. Google doet het op zijn manier best goed op dit moment en heeft zijn eigen methodes ontwikkeld om websites (semantisch) te indexeren. Elk nieuw semantisch idee kan alleen succesvol worden als het door Google wordt ondersteund, anders is het gedoemd te mislukken.

Semantiek is globaal en niet intern

De Dublin Core set wordt hier en daar toch toegepast. De Nederlandse Overheid bijvoorbeeld heeft het als gevolg van de webrichtlijnen (een aantal richtlijnen waar overheidssites aan moeten voldoen) op een aantal van haar websites staan. De overheid kan op deze manier een mooi intern systeem opzetten. Echter, ‘intern’ gaat totaal in tegen de principes van een semantisch web, dat is bedoeld als een globaal systeem voor iedereen.

Websites zijn niet gemakkelijk in te delen

Er zit een verkeerde gedachte achter het semantische web, namelijk dat alle websites informatief zijn. Je kan een website niet beschrijven zoals je dat met een boek in de bibliotheek zou doen. Voor de doorsnee website is het bijvoorbeeld lastig om de Dublin Core elementen ‘publicatie datum’ of ‘geldigheidsdatum’ te bepalen. En elementen als ‘is versie van’ en ‘is een alternatief voor’ zijn moeilijk te gebruiken. Een website is gewoon geen statisch document.

Zo is het ook bij de in de html specificatie gedefinieerde ‘rel’ attributen. Voorbeelden hiervan zijn ‘start’ ‘next’ ‘prev’ en ‘chapter’. Deze attributen zijn door dezelfde fout ten onder gegaan; dat is ook waarom werkelijk niemand ze nog gebruikt. Neem een webwinkel. Welke pagina kies je als de start van het.. webwinkel’document’? Wat is de volgorde van de pagina’s? De inhoudsopgave? Als je het probeert te implementeren loop je erop stuk dat een website gewoon geen publicatie is die je van voor naar achteren doorleest. Het is een dynamisch geheel waarbij een pagina op allerlei verschillende manieren bij andere pagina’s hoort.

Bijna alle semantische ideëen vandaag de dag zijn gewoon niet bruikbaar. Het werkt niet zolang webpagina’s als statische documenten ingedeeld worden.

Teveel extra code is ongewenst

De Dublin Core elementen worden in het gedeelte van de website code geplaatst. Dit leidt tot een ongelofelijke hoeveelheid data: code bloat. Een grotere bestandsgrootte is het gevolg en het voelt gewoon hinderlijk. Nu de focus steeds meer komt te liggen op betere en schonere code, is code bloat echt not done. Het werkt gewoon niet als er allerlei tags en attributen aan de code toegevoegd moeten worden, de code zelf moet semantisch zijn.

Semantisch werkt niet zonder standaard

Een van de grootste problemen van Dublin Core was toch wel dat er geen standaard bestond voor het invullen van de informatie. Iedereen deed wat hij dacht dat juist was. Als de een als type ‘afbeelding’ invult en de ander ‘plaatje’, weer een ander ‘stilstaand beeld’ en nog een ander ‘image’ (want er zijn natuurlijk ook nog andere talen), dan werkt de hele semantische gedachte niet: er zou één vaststaand woord moeten zijn om een bepaald concept te beschrijven.

Om deze problemen aan te pakken werden ‘vocabularies’ geïntroduceerd. Dit zijn databases met geschikte woorden. Deze databases hebben zo hun eigen problemen. Ten eerste zijn alle woorden in een bepaalde taal (in het geval van Dublin Core alleen in het Engels) waardoor van enige internationalisatie geen sprake meer is. Daarbij komt dat iemand van alle databases op de hoogte moet zijn en de moeite moet nemen om de hele database door te lezen om erachter te komen dat hij beter het woord ‘jong volwassenen’ kan gebruiken dan ‘jongeren’. Wie neemt daar de moeite voor? Tevens is er nu een centrale autoriteit nodig die de vocubalaries opstelt en dit past niet echt bij de gelijkheidscultuur die het internet momenteel is. Daarbij is er totaal geen controle of de gebruikers het wel goed toepassen. Het is eigenlijk gewoon absurd.

Het mag geen moeite kosten

Hoe simpel de Dublin Core set dan ook mag zijn, het is toch teveel werk voor het overgrote deel van de gebruikers. Het kan uren kosten om aan elke pagina de juiste titel, onderwerpen, beschrijving, datum, etc. te geven en er zijn weinig mensen die die tijd ook echt vrijmaken. Als het semantische
web er komt, zal het iets moeten zijn waar de ontwikkelaar weinig moeite voor hoeft te doen. Of nog beter, helemaal geen moeite.

Mensen zijn niet te vertrouwen

Beter vindbaar zijn is voordelig. Zelfs zo voordelig dat persoonlijk gewin een rol gaat spelen. En dat is nou juist waar het fout gaat. Bij de Dublin Core set zijn de gebruikers zelf verantwoordelijk voor het juist en objectief invullen van de gegevens, een vrijbriefje voor manipulatie en zoekwoord‐spamming. Zolang gebruikers voor persoonlijk gewin gaan zal het systeem daar altijd door beïnvloed worden. Mensen zullen er alles aan doen om zelf beter vindbaar te zijn. Een semantisch idee heeft er dus voor te zorgen dat het niet ten onder gaat aan zijn eigen gebruikers.

Te simpel werkt averechts

Al snel na de introductie van Dublin Core bleek dat het uitwisselen van de data toch niet zo gemakkelijk werkte. De set was te simpel in vergelijking met andere systemen. Bij het omzetten ging er allerlei belangrijke informatie verloren. Er was gewoonweg geen manier om deze informatie te verwerken. Een semantisch systeem moet deze ingewikkelde dingen aan kunnen.

Het grote publiek laat het links liggen

Voor het overgrote deel van de ontwikkelaars is semantiek nog een ver‐van‐mijn‐bed‐show. Zowel het probleem als de oplossing voor het probleem is niet duidelijk. Want wat is er eigenlijk mis met de huidige situatie? Zodoende is er gewoon geen beangstelling voor. Daarbij komt dat de organisaties die semantiek moeten promoten erg stoffig zijn en totaal geen kaas hebben gegeten van goede marketing. Neem het W3C. Ze hebben nog steeds bijna niemand overtuigd van het nut van valide code. Als zoiets kleins al niet lukt, hoe zou het dan vergaan met iets groots als het semantische web?

Kortom

Het semantische web heeft met een aantal barièrres te kampen. Barièrres die op dit moment nog niet zo gemakkelijk te overwinnen zijn. Dat het semantisch web voor iedereen een ontzettende vooruitgang zou betekenen is een feit, maar op dit moment is het praktisch gewoon nog niet haalbaar.

Is er nog hoop?

Is Dublin Core nog te redden? Ik weet het niet. Ik kan geen oplossing bedenken. Mijn mening is dat Dublin Core gewoon mislukt is en dat was het dan. Een leuk project, maar uiteindelijk niet haalbaar. Hoe denk jij over de toekomst van Dublin Core en het semantische web?

Over de auteur

Daan Walraven

  • http://hayobethlehem.nl Hayo

    dc is de basis van vele metadatastandaarden in vele disciplines. heeft de auteur bijvoorbeeld wel eens van de overheids web metadata standaard gehoord? dit artikel is een beetje klok/klepel verhaal.

  • http://www.daanwalraven.nl Daan Walraven

    Ik heb gewerkt bij Stichting Accessibility. Dat is de stichting die erop toeziet dat de overheid dit soort ideeën ook echt toepast. Discussies over dit soort zaken waren aan de orde van de dag! Ik denk dat er een verschil is tussen de echte Dublin Core standaard en wat op die standaard gebaseerd is. De overheids web metadata standaard is pas in een vernieuwde versie de Dublin Core elementen gaan ondersteunen. Omdat de overheid door middel van de webrichtlijnen gepusht wordt om aan Dublin Core te voldoen kon dit natuurlijk niet uitblijven.

    Dublin Core is bedacht in de tijd dat het web nog een ongelooflijke puinhoop was. Zelfs nog voordat Google bestond. Het is naar mijn mening gewoon niet gelukt om het web een betere plek te maken voor iedereen. Je zou eigenlijk kunnen zeggen dat Google wel voor die doorbraak gezorgd heeft ten koste van Dublin Core. Andere disciplines zijn nu gebaseerd op de Dublin Core standaard. Waarschijnlijk werken deze systemen goed voor deze toepassingen en daar kan je dan ook zeker niet spreken van een mislukking. Echter, het gaat dan om een intern systeem. Net zoals de overheid met de overheids web metadata standaard een zoekdienst wil opzetten zodat gebruikers door de overheidsinformatie kunnen zoeken.

    Het is trouwens nog maar de vraag of dat ook echt gebeurd. Er zijn nu volgens mij maar 4 websites die aan de webrichtlijnen voldoen. Er is ook geen echte straf of iets dergelijks als er niet aan wordt voldaan. Daarbij staat in de webrichtlijnen alleen dat er metadata aanwezig moet zijn, niet dat deze ook foutloos moet zijn. Daardoor is meer dan de helft onjuist.

  • http://www.carstenaltena.nl Carsten Altena

    Mooi geschreven! Ben niet zo heel bekend met de materie, maar kunnen we RDFa in feite beschouwen als een vervanger van de Dublin Core?

    • http://www.webrichtlijnen.nl/ Raph de Rooij

      @Carsten:
      Zoals uit mijn eerder gegeven reactie blijkt ben ik het niet eens met de eerste zin 😉
      RDFa is geen vervanger van Dublin Core metadata. Het is een mogelijkheid om door middel van TYPEOF en PROPERTY attributen op elementniveau metadata toe te voegen aan (X)HTML-pagina's. RDFa is te beschouwen als een vervanger van Microformats. En als een vervanger van het META element. Met de 'oude' manier, META elementen dus, kun je per pagina slechts één concept beschrijven. Elke (X)HTML-pagina is dus één informatie-object. Met RDFa kan elk element een zelfstandig informatie-object zijn. Echter, RDFa is niet alleen veel krachtiger, maar ook een stuk complexer. Dat houdt een risico in voor de slaagkans. Maar voor wie de kennis, kunde èn wil heeft om er iets nuttigs mee te doen biedt de syntactische laag RDFa, desgewenst in combinatie met de semantische laag Dublin Core, een fantastische gereedschapskist om het web semantisch te verrijken.

  • http://www.webrichtlijnen.nl Raph de Rooij

    @Daan: je schrijft in een reactie: “Ik heb gewerkt bij Stichting Accessibility. Dat is de stichting die erop toeziet dat de overheid dit soort ideeën ook echt toepast.”

    Een paar opmerkingen hierover:

    1) Stichting Accessibility heeft géén toezichthoudende rol, en al helemaal niet als het gaat om toepassing van metadata. Het is een instelling die inspecties uitvoert op het gebied van toegankelijkheid en webrichtlijnen, onder accreditatie van de stichting Waarmerk drempelvrij.nl Dus het argument dat je weet waar het over gaat omdat je bij Accessibility hebt gewerkt is op z’n minst twijfelachtig te noemen. Bovendien doe je je ex-collega’s daarmee ernstig tekort.

    2) Er is geen webrichtlijn die de toepassing van metadata voorschrijft en al helemaal niet Dublin Core metadata..Het onderwerp komt in de Webrichtlijnen alleen ter sprake, zie http://www.webrichtlijnen.nl/handleiding/ontwikkeling/productie/metadata/

    3) Er is geen sprake van dat “de overheid door middel van de webrichtlijnen gepusht wordt om aan Dublin Core te voldoen”, zoals je schrijft. Dan ken je de Webrichtlijnen niet goed genoeg, Dublin Core niet goed genoeg, of beide niet goed genoeg.

    4) Er is weliswaar een toegankelijkheidsrichtlijn die er over gaat – voor de liefhebbers: WCAG 1.0 ijkpunt 13.2 (prioriteit 2) – maar de succescriteria gaan niet verder dan de controle of het TITLE element is gebruikt en of er een of meerdere META elementen in de HEAD sectie voorkomen. Dat heeft dus helemaal niks van doen met Dublin Core.

    Verder leek het alsof ik het artikel http://www.well.com/~doctorow/metacrap.htm uit 2001 opnieuw zat te lezen. De reden waarom het voor _alle_ websites waarschijnlijk nooit zal werken is al heel lang bekend.
    Echter, voor deelverzamelingen van het web die:
    1. een natuurlijke samenhang hebben, en
    2. de algemene perceptie is dat het één geheel vormt, bijvoorbeeld ‘de overheid’;
    is het – nog altijd – een bruikbaar middel om op een betrouwbare manier (enige) samenhang aan te brengen in alle overheidsinformatie die online wordt gezet.

    Voor SEO biedt Dublin Core metadata tot op heden inderdaad praktisch geen meerwaarde. Maar dat is slechts één perspectief. En rechtvaardigt de conclusie niet dat Dublin Core mislukt is. Om tot een dergelijke zware conclusie te komen had ik toch minstens meer diepgang verwacht. En meer kennis van en inzicht in de materie.

  • http://www.daanwalraven.nl Daan Walraven

    @ Raph
    Je valt mij aan op hoe ik de dingen verwoord. Niet op de inhoud van het artikel. De argumenten waarmee je komt gaan niet over de vraag of Dublin Core wel of niet mislukt is. Daarbij gaan ze ook nog eens over dingen die ik niet gezegd heb.

    1.Nergens heb ik genoemd dat ik weet waar ik het over heb omdat ik bij Accessibility heb gewerkt. Er ontstond een discussie en ik vertelde dat die daar ook werden gevoerd. Blijf bij de feiten! Nu doe je mij en mijn ex-collega’s te kort. Daarbij heeft Accessibility de rol om websites te inspecteren en zo een oordeel te vellen over of ze wel of niet voldoen aan de richtlijnen. Je kunt nog zoveel mooie richtlijnen bedenken maar als er geen controle is of dit ook wel echt toegepast wordt, dan wordt het niet zo snel toegepast.
    2.Je zegt dat er geen richtlijn is die metadata voorschrijft. Nergens in het artikel vertel ik dat dit wel zo is. Het gaat mij niet om de exacte richtlijnen, maar om het project in zijn geheel en wat dat met zich meebracht. Daarom schreef ik ook op ‘als gevolg van’.
    3.Dublin Core komt in de webrichtlijnen ter sprake. Dat vat ik op als een klein zetje in de juiste richting dat als er metadata wordt toegevoegd Dublin Core misschien wel de juiste keuze zou kunnen zijn. Of maakt het je totaal niet uit welke metadata systeem toegevoegd wordt?
    4.Als ik naar de website van de OWMS ga dan zie ik het woord ‘webrichtlijnen’ zelfs in het menu staan. Volgens mij bestaat er toch wel een link (en enige invloed) tussen het invoeren van metadata en de webrichtlijnen. http://www.overheidheeftantwoord.nl/standaarden,m

    De conclusie waar je mee komt is precies dezelfde conclusie waar ik mee kwam in mijn reactie! “Waarschijnlijk werken deze systemen goed voor deze toepassingen en daar kan je dan ook zeker niet spreken van een mislukking.”

    Daarbij denk ik dat een reactie van een van de schrijvers van de webrichtlijnen nooit echt objectief kan zijn. Het is je baan en dus ga je niet tegen je eigen werk in.

    • http://www.webrichtlijnen.nl/ Raph de Rooij

      @Daan
      Het gaat niet hoe je dingen verwoord, het gaat erom dat je er bij de onderbouwing van je betoog 'feiten' bij haalt waarvan wel heel gemakkelijk aantoonbaar is dat ze onjuist zijn. En dat je vanuit één enkel perspectief de materie benadert, terwijl Dublin Core helemaal niet voor het betreffende doel (SEO) is ontworpen of bedoeld.
      Dublin Core metadata is niet ontwikkeld omdat het web zo'n puinhoop was. Met 'Dublin' in Dublin Core wordt Dublin i n de staat Ohio (VS) bedoeld, de vestigingsplaats van de OCLC.. Dat staat voor Online Computer Library Center. Het is een non-profit organisatie die ICT-ondersteuning biedt aan bibliotheken wereldwijd. Dáár is het mee begonnen. Maar ook 'webbronnen' is het geschikt. Op http://www.dublincore.org/groups/ vind je een overzicht van communities en task groups. Dat biedt een beeld van de toepassingsgebieden. Zoekmachineoptimalisatie zit daar niet bij. Dus de conclusie – op basis van je betoog – dat Dublin Core mislukt is, is vergelijkbaar met de conclusie dat de auto als uitvinding mislukt is omdat je er niet mee kunt vliegen.

      Even puntsgewijs nog een reactie op je tegenargumenten:

      1) Ik blijf erbij dat je een onjuist beeld schetst van de rol van stichting Accessibility. De stichting is geen toezichthouder voor de overheid. Accessibility doet op verzoek van (overheids)organisaties onderzoek naar de mate waarin websites voldoen aan de toegankelijkheidsnorm. Dat is een dienstverlenende rol. Je hebt het in je eerste reactie over 'dit soort ideeën' en 'Discussies over dit soort zaken waren aan de orde van de dag!', in een context die uitsluitend over Dublin Core metadata gaat. Hoe Accessibility moet toetsen is nauwkeurig beschreven in een normdocument, dat beschikbaar is op http://www.drempelvrij.nl/webrichtlijnen. De woorden 'Dublin Core' komen in dat document niet voor. Enkel wordt in een voorbeeld (op pagina 81 van het normdocument) een voorbeeld getoond waarin de DC prefix wordt gebruikt.

      2) Je schrijft in je artikel: "De Nederlandse Overheid bijvoorbeeld heeft het als gevolg van de webrichtlijnen (een aantal richtlijnen waar overheidssites aan moeten voldoen) op een aantal van haar websites staan". Dat is toch een heel duidelijke aanwijzing dat toepassing van metadata door de webrichtlijnen wordt voorgeschreven. Als mijn interpretatie niet juist is, hoe moet ik het dan opvatten?
      En nogmaals: Webrichtlijnen en metadata zijn twee verschillende projecten. Dus als je met "het project in zijn geheel en wat dat met zich meebracht" doelt op de webrichtlijnen, dan zit je er gewoon naast.

      3) Je schrijft: "Dublin Core komt in de webrichtlijnen ter sprake. Dat vat ik op als een klein zetje in de juiste richting dat als er metadata wordt toegevoegd Dublin Core misschien wel de juiste keuze zou kunnen zijn". Da's een tamelijk vergezochte interpretatie van wat er staat. Er is trouwens wel degelijk een link tussen de twee: het webrichtlijnenproject en het metadataproject zijn gelijktijdig uitgevoerd en hadden dezelfde projectleiding. Dat verklaart waarom metadata op basis van Dublin Core in de webrichtlijnen ter sprake komt. Maar een van de uitgangspunten bij de webrichtlijnen was dat het moest zijn gebaseerd op open standaarden en best practices. Het metadataproject had in september 2004 niet de status van open standaard en een best practice op dat vlak was toen ook nog niet voorhanden.
      "Een klein zetje" is het inderdaad. Maar meer ook niet. En op overheidswebsites is al helemaal geen Dublin Core metadata aan webpagina's toegevoegd "als gevolg van de webrichtlijnen", zoals je schrijft.
      Voor de webrichtlijnen maakt het inderdaad totaal niet uit welk metadata systeem toegevoegd wordt. Dus het antwoord op je laatste vraag onder punt 3 is bevestigend: het maakt totaal niks uit, zie ook het normdocument.

      4) OWMS heeft geen eigen website. De URL is van een projectpagina op een programmawebsite. Een van de andere projecten van dat programma heeft als naam… Webrichtlijnen! Dus er is inderdaad een link: ze behoren tot hetzelfde programma. Maar de invloed die er zou bestaan tussen de invoering van metadata en de webrichtlijnen is er niet. Dublin Core komt niet mee in het kielzog van de webrichtlijnen. Sterker nog: begin 2004 werd al begonnen Dublin Core metadata toe te passen in overheidsprojecten. Toen bestonden de webrichtlijnen nog niet eens. Het metadataproject had – en heeft nog steeds – zijn eigen dynamiek.

      Je schrijft tot slot: "De conclusie waar je mee komt is precies dezelfde conclusie waar ik mee kwam in mijn reactie!"
      Mijn conclusie was dat Dublin Core metadata voor SEO praktisch geen meerwaarde biedt.
      Jouw conclusie staat al in de titel: Dublin Core is een mislukking.
      Die twee conclusies zijn echt niet 'precies hetzelfde'.

      Waarom zou ik als een van de schrijvers van de webrichtlijnen niet objectief kunnen zijn als het over medata gaat? Ik wijs je op feitelijke onjuistheden en onderbouw mijn opvatting over het onderwerp met eenvoudig verifieerbare feiten.
      Ik vind (hé, een mening 😉 het een nogal doorzichtige poging om iemand te diskwalificeren die een tegengeluid laat horen.

  • http://www.accessibility.nl Eric Velleman

    Mocht dat beeld al zijn ontstaan: Accessibility staat niet achter Daan's bijdragen. Ik neem daar hierbij dan ook afstand van.
    Daan is slechts een beperkte periode bij Accessibility in opleiding geweest en hij verkondigt hier niet onze visie of standpunten.

    Eric Velleman
    Technisch directeur Stichting Accessibility

  • Vince de Vries

    euk verhaal, dat ook na alle kritiek grotendeels overeind blijft. Ik wil er graag nog wat aan toevoegen.

    Meta-data is informatie over informatie. Maar de grote vraag is: wat is informatie? En in vervolg daarop, wanneer is informatie informatief? Die vragen zijn niet te beantwoorden zonder het begrip 'context. Om dat uit te leggen gebruik ik vaak het voorbeeld '42'. Sommige mensen zullen dit getal herkennen als 'The Answer to the Ultimate Question of Life, the Universe, and Everything ' uit 'The Hitchhiker's Guide to the Galaxy'.

    Maar mijn goede vriend Tommy is conducteur bij de NS en herkent daarin een zekere tariefsafstand met bijbehorend vervoersbiljet. Tommy werkt bij de NS. Je weet wel De Nederlandse Spoorwegen. Nederlandse, weet je wel, afkomstig uit dat landje in Europa, links van Duitsland.

    Of iets informatie is hangt volledig af van de ontvanger. Een woord of getal krijgt pas betekenis als het wordt geïnterpreteerd door een mens en hoe dat gebeurt hangt af van wat die mens weet, meemaakt en welke vraag hij al dan niet heeft gesteld.

    Het semantisch web heeft enkel kans van slagen als het in staat is context te formuleren. En nu komt het mooie: als je context goed documenteert, heb je alle metadata die nodig is om zinvol te indexeren. Maar daarmee ben je er nog niet. Want zoals hierboven correct opgemerkt: de auteurs van webpagina's zullen vaak te lui of te hebberig zijn om te kunnen zorgen voor een correcte set gegevens.

    Ik vind de gedachte om webpagina's semantisch te indexeren dan ook niet zo'n goed idee. Wat valt er semantisch te indexeren aan alle artikelen in de webshop van een handel in pvc afvoerpijpen? Semantiek is een betekenisleer die zich voornamelijk richt op woorden. Dat schiet bij die pijpenhandel niet erg op.

    Maar er is een alternatief. En daar werk ik zelf aan. Het uitgangspunt is daarin niet de webpagina (of een andere online bron), maar een gemeenschap van gemeenschappen van mensen met een gezamelijke interesse. Zij zijn gemotiveerd, goed geinformeerd en geinteresseerd in bruikbare en herbruikbare informatie. Zij kunnen elkaar controleren op het zorgvuldig toepassen van regels en dat zullen ze ook doen doordat zij er zelf baat bij hebben.

    Het model voor die gemeenschap mag geenszins lijken op de organisatie van bijvoorbeeld Wikipedia. Daar is de waarheid een democratisch gegeven. Maar waarheid is geen criterium in een web waarin ieder recht heeft op een eigen mening. Daarom moet in de organisatiestructuur en in de gegevensstructuur fundamenteel liggen verankerd dat er meerdere waarheden zijn. Dat er meerdere wegen naar Rome leiden.

    En zolang die parallelle waarheden gebruik maken van dezelfde methodes, eenheden en 'tags' kan de eindgebruiker (de zoeker) zelf beoordelen wat hem het meest helpt als antwoord op een vraag.

    In deze constellatie is Google geen issue meer. De organisatie van de Gemeenschap der gemeenschappen is in staat zelfstandig te functioneren naast Google. Het is een ding dat zich zelf verkoopt dankzij het netwerk van mensen met gelijke interesse. Anders gezegd: wie geinteresseerd is in '42' kan zoeken met een zoekmachine of zijn heil zoeken bij de gemeenschap van mensen voor wie 42 een passie is. Tien maal raden waar je langer blijft hangen.

    • http://www.webrichtlijnen.nl/ Raph de Rooij

      Dag Vince,

      Je schrijft dat je werkt aan een alternatief. Kun of wil je daarover al meer kwijt?
      Met enige regelmaat is het doel van Google zoekopdrachten om dergelijke communities te vinden. Die hebben soms een serieus 'incrowd problem'. Wanneer ik daar beland ben ik soms "still confused, but at a much higher level." Hoe ga je in je alternatief met zo'n probleem om?

      Nog even over die handel in pvc afvoerpijpen: Het beschrijven van de producten van de handel is waardevol voor wie in de materie geïnteresseerd is; geen pvc-pijp is namelijk hetzelfde…

  • http://www.indepth.nl Daan Walraven

    Precies!

    Het is net zoals bij een computer van een bibliotheek waarmee je naar boeken kan zoeken. Wie heeft daar ooit goede info uit gekregen? Je zoekt naar een onderwerp en je krijgt een overzicht van 100 boeken die met dat onderwerp te maken hebben. Maar welk boek is nu het juiste voor jouw? Dat is de vraag. Gewoon ordenen is niet genoeg.

    Google ziet dit ook in en gaat steeds meer naar andere factoren zoeken en hecht geen waarde meer aan metadata. Wat je opgeeft als beschrijving of keywords wordt niet gebruikt in de berekening. Het gaat hierbij steeds minder om de data die je zelf over een bepaalde bron geeft maar om externe data. Hoeveel links een pagina heeft, of mensen echt iets vinden of gelijk weer weggaan, of iemand vaak op een zoekresultaat klikt etc. In de toekomst komt daar waarschijnlijk ook social media bij. Ze kunnen nu al zien wat de header content en footer is. En breadcrumbs kunnen ze ook ontdekken. En als ze een datum zien is het ook niet zo moeilijk om in te zien dat dat een datum is. Er is geen semantische systeem meer nodig! Alle semantische barrières worden overwonnen.

    Maar ook Google's systeem heeft zijn beperkingen. Want ze kunnen nog wel zo goed semantische data opbouwen maar feit blijft dat de zoekvraag en context voor iedereen een andere betekenis heeft. Zoals jij ook zegt. Er zijn nog steeds duizenden resultaten voor een zoekopdracht. En als ik het beste boek wilt vinden over een onderwerp werkt het toch niet optimaal. Ik krijg allerlei niet gerelateerde resultaten. Vandaar dat mensen nu meer naar sites als Digg gaan. Dan weet je bijvoorbeeld zeker dat de beste artikelen bovenaan staan. Omdat de community dat heeft bepaald.

    Een systeem zoals waar jij nu aan werkt is misschien wel de oplossing. Een netwerk met gelijke interesse kan je natuurlijk veel beter helpen. Daarmee is de vraag wat nu het beste boek is gelijk opgelost. Omdat er niet 1 specifiek boek is dat het beste moet zijn (1 waarheid) maar verschillende boeken (verschillende waarheden) tegelijkertijd kunnen bestaan. En dan kan je zelf beoordelen wat het beste antwoord op je vraag is.

    De vraag is alleen hoe iemand zo'n netwerk vindt… toch even Googelen?