<!DOCTYPE TEI.2 PUBLIC '-//C. M. Sperberg-McQueen//DTD
          TEI Lite 1.0 plus SWeb (XML)//EN'
          'http://www.w3.org/People/cmsmcq/lib/swebxml.dtd' [

<!ATTLIST list type CDATA 'bullets' >


<!ENTITY aacute  "&#225;" ><!-- small a, acute accent -->
<!ENTITY ae      "&#228;" ><!-- small a, dieresis or umlaut mark -->
<!ENTITY Ae      "&#196;" ><!-- capital A, dieresis or umlaut mark -->
<!ENTITY agrave  "&#224;" ><!-- small a, grave accent -->   
<!ENTITY amp    "&#38;#38;" ><!--=ampersand-->
<!ENTITY aring   "&#229;" ><!-- small a, ring -->
<!ENTITY auml    "&#228;" ><!-- small a, dieresis or umlaut mark -->
<!ENTITY Auml    "&#196;" ><!-- capital A, dieresis or umlaut mark -->
<!ENTITY ccedil  "&#231;" ><!-- small c, cedilla -->
<!ENTITY copy   "&#169;" ><!--=copyright sign-->
<!ENTITY eacute  "&#233;" ><!-- small e, acute accent -->
<!ENTITY ecirc   "&#234;" ><!-- small e, circumflex accent -->
<!ENTITY egrave  "&#232;" ><!-- small e, grave accent -->
<!ENTITY euml    "&#235;" ><!-- small e, dieresis or umlaut mark -->
<!ENTITY iacute  "&#237;" ><!-- small i, acute accent -->
<!ENTITY gt     ">"      ><!--=greater-than sign R:-->
<!ENTITY lt     "&#38;#60;"      ><!--=less-than sign R:-->
<!ENTITY mdash  "&#x2014;" ><!--=em dash-->
<!ENTITY ntilde  "&#241;" ><!-- small n, tilde -->
<!ENTITY oacute  "&#243;" ><!-- small o, acute accent -->
<!ENTITY oslash  "&#248;" ><!-- small o, slash -->
<!ENTITY Oslash  "&#216;" ><!-- capital O, slash -->
<!ENTITY oe      "&#246;" ><!-- small o, dieresis or umlaut mark -->
<!ENTITY ouml    "&#246;" ><!-- small o, dieresis or umlaut mark -->
<!ENTITY ss      "&#223;" ><!-- small sharp s, German (sz ligature) -->
<!ENTITY szlig   "&#223;" ><!-- small sharp s, German (sz ligature) -->
<!ENTITY ue      "&#252;" ><!-- small u, dieresis or umlaut mark -->
<!ENTITY uuml    "&#252;" ><!-- small u, dieresis or umlaut mark -->
<!ENTITY Uuml    "&#220;" ><!-- capital U, dieresis or umlaut mark -->

<!NOTATION PNG SYSTEM "img/png">
<!ENTITY RJ3 SYSTEM "images/RJ3.png" NDATA PNG>
<!ENTITY RJ4 SYSTEM "images/RJ4.png" NDATA PNG>
<!ENTITY RJ5 SYSTEM "images/RJ5.png" NDATA PNG>
<!ENTITY RJ6 SYSTEM "images/RJ6.png" NDATA PNG>

<!ATTLIST xref href CDATA #IMPLIED>
]>
<?xml-stylesheet type="text/xsl" href="./mannheim.xsl"?> 
<TEI.2>
<teiHeader>
<fileDesc>
<titleStmt>
<title>Standards in der geisteswissenschaftlichen Textdatenverarbeitung</title>
<title type="subtitle">&Uuml;ber die Zukunftssicherung von Sprachdaten</title>
</titleStmt>
<publicationStmt>
</publicationStmt>
<sourceDesc>
<p>Created in electronic form.</p>
</sourceDesc>
</fileDesc>
<profileDesc>
<langUsage>
<language id="en">Some English.</language>
<language id="de">Some German.</language>
</langUsage>
</profileDesc>
</teiHeader>
<text>
<front>
<titlePage>
<docTitle>
<titlePart>Standards in der geisteswissenschaftlichen Textdatenverarbeitung</titlePart>
<titlePart>&Uuml;ber die Zukunftssicherung von Sprachdaten</titlePart>
</docTitle>
<titlePart>Vortrag beim Workshop der Union der deutschen Wissenschaftsakademien</titlePart>
<docDate>Mannheim, den 6. Oktober 2008</docDate>
<docAuthor>C. M. Sperberg-McQueen</docAuthor>
</titlePage>
</front>
<body>

<!--* <note type="block">
<p lang="en">This draft will be a mixture of English text and
German text, because I have been taking notes and drafing some
parts in English, for speed; all the actual text (but not the notes)
will need to be re-expressed in German for the actual talk.  (If that
task isn't completed, I'll end up having to improvise.) The English
will be displayed in one way, the corresponding German in the
immediately following paragraph in a different way.  (N.B. the
stylesheet is buggy in handling list items.)  The goal
is to make it easy both to see the English / German correspondences
and to read the English or German text seriatim.</p>
<p lang="de">Dieser Text besteht aus einer Mischung von
englisch und deutsch verfa&szlig;ten Abs&auml;tzen, weil ich der
Bequemlichkeit halber meine
Skizzen und Notizen auf Englisch gemacht habe.  Der englischen
Formulierung wird vor Montagabend eine deutsche hinzugef&uuml;gt werden m&uuml;ssen.
(Falls nicht, so mu&szlig; ich eben improvisieren.)
Der englische Wortlaut und die in der darauffolgenden Abs&auml;tzen 
erscheinende deutsche &Uuml;bersetzung
werden verschieden dargestellt, damit es leicht f&auml;llt, 
erstens die Korrespondenzen zu sehen, und zweitens den Text
in der jeweiligen Sprache kursorisch zu lesen.
(N.B. das Stil f&uuml;r Listeneintr&auml;ge ist z.Zt. verbockt.
Wird sp&auml;ter nachgeholt.) 
</p>
</note>
*-->

<div>
<head>Einleitung</head>
<p lang="en">Standards in the humanities?  Surely you're joking.</p>
<p lang="de">Die &Uuml;berschrift dieses Vortrags lautet:
<q>Standards in der geisteswissenschaftlichen Textdatenverarbeitung</q>.
Es w&auml;re verst&ae;ndlich, w&uuml;rde man verbl&ue;fft auf diese
&Uuml;berschrift gucken und sich fragen
<q>Standards? Normierung?  In den 
<emph>Geisteswissenschaften</emph>?  Kann das als Witz
gemeint sein?</q><note place="foot">F&ue;r ihre Hilfe bei der deutschen Formulierung
dieser Gedanken habe ich Herrn Prof. Dr. Kurt G&ae;rtner und
Herrn Dr. Felix Sasaki herzlich zu danken.  Der Zuh&oe;rer ahnt
gar nicht, wie viel er ihnen schuldet.</note></p>

<p lang="en">The humanities (Dilthey) are about meaning, not regularity.
Meaning inheres particularly in the unusual, in the irregular,
in the exception the rule.  Humanists are habitually interested
especially in the marked case.  (And when we are interested in 
the unmarked case, our way of studying it is Verfremdung,
to make it into the marked case and something we can focus upon.)</p>
<p lang="de">Denn Normieren hei&szlig;t, regelkonform machen.
Und Dilthey hat uns ja gelehrt, da&szlig; die Geisteswissenschaften
sich mit dem Verstehen, nicht mit den Regelm&auml;&szlig;igkeiten, der
Dinge befassen. Und das Verstehen richtet sein Augenmerk zum
gro&szlig;en Teil auf die Eigenart der Sache, auf die
Unregelm&auml;&szlig;igkeit, auf den Versto&szlig; gegen die Regel.
Die Geisteswissenschaft interessiert sich naturgem&auml;&szlig;
f&uuml;r den <emph>merkmalhaften</emph> Fall.  (Und wenn man gelegentlich
ausgerechnet das Merkmallose untersuchen will, pflegt man, es
durch eine Art Verfremdung zum <emph>Merkmalhaften</emph> zu machen, um es
sch&auml;rfer sehen zu k&ouml;nnen.) <!--* Meaning inheres
particularly in the unusual, in the irregular, in the exception the
rule.  Humanists are habitually interested especially in the marked
case.  (And when we are interested in the unmarked case, our way of
studying it is Verfremdung, to make it into the marked case and
something we can focus upon.) *--></p>

<p lang="en">Humanists attend to the significant particularities of the text;
how can that be standardized?</p>
<p lang="en">Jocelyn Penny Small:  the database system wants you (or so the
documentation will suggest) to clean up the mess that is your data.
Don't clean up the mess.  Preserve the mess.</p>
<p lang="de">Die Kunsthistorikerin Jocelyn Penny Small hat einmal
bemerkt, wer ein Datenbanksystem einrichtet, kommt in Versuchung,
kommt ja gerade unter Druck, die Daten sch&ouml;n
regelm&auml;&szlig;ig einzugeben, alles klar, alles sauber, alles
aufgeputzt.  So l&auml;uft man aber Gefahr, die Daten leicht oder
schwerwiegend zu verf&auml;lschen, denn est ist sehr leicht, beim
Normalisieren die Eigenart der Daten fahren zu lassen.  Man
kommt sich als Geisteswissenschaftler angesichts der kalten Logik des
Datenbanksystems mit seinen Schemata und seinen streng rechteckigen
Datentabellen so unordentlich, so desorganisiert, vor, man
m&ouml;chte anl&auml;&szlig;lich der Digitalisierung aber das wilde
Durcheinander in den Daten doch ein bi&szlig;chen aufr&auml;umen.</p>
<p>Aber, wie Small uns ganz zurecht mahnt, est ist gar nicht
unsere Sache, die Unordnung der geschichtlichen &Uuml;berlieferung
und der geisteswissenschaftlichen Daten allgemein zu z&auml;hmen.
Unsre Sache ist es, mittels der kalten Logik der
Datenbanksysteme die wirbelnde Unordnung des faktisch
Gegebenen m&ouml;glichst detailliert und
wirklichkeitstreu nachzubilden, und <!--* die Unordnung *-->das Durcheinander
somit zu bewahren.  <q>Preserve the mess,</q> schreibt
Small.</p>
<p lang="de">Wie kann man das, wenn man nach Normen und Standards,
und nicht nach den Eigenarten der Daten arbeiten mu&szlig;?</p>

<p lang="en">Some have argued that humanities is so special in its
requirements that we are misguided even to try to use the
tools of standard information technology in the first place;
what we need, according to Manfred Thaller, is an entire
new discipline of historical (or: humanistic) informatics.</p>
<p lang="de">Manche behaupten sogar, das f&uuml;r die
geisteswisssenschaftliche Datenverarbeitung Notwendige sei der
g&auml;ngigen kommerziell ausgerichteten Praxis der
Informationstechnologie (und der real existierenden
Normenorganisationen
<!--* Normenentwicklungsorganisationen *-->
[standards development
organizations]) so fremd, da&szlig; wir als Geisteswissenschaftler
mehr Schaden als Nutzen daraus ziehen.  Manfred Thaller, der als
exponierter Bef&uuml;rworter dieses Gedankenganges gelten darf, hat
sich dann konsequenterweise schon vor Jahrzehnten angeschickt, eine
neue rein geisteswissenschaftliche historische Informatik zu
begr&uuml;nden, die mit der herk&ouml;mmlichen Informatik und
Datenbanksystemen kaum etwas mehr als den Namen Informatik gemeinsam
haben soll.
</p>

<p lang="en">So is my title a sort of mythical beast?  Could the talk
just as easily have been called "Applications of unicorn hair
in the semiconductor industry?"</p>
<p>Bezeichnet also der Titel des Vortrags also eine Art
mythisches Ungeheuer?  H&auml;tte er 
genausogut <title>Anwendungen des Einhornhaares in der
Halbleiteranfertigung</title> 
<!--* [applications of
unicorn hair in semiconductor fabrication] *-->
hei&szlig;en k&oe;nnen?</p>
<p lang="en">[Pause]</p>
<p>[Pause]</p>
<p lang="en">You know perfectly well, of course, what my answer will be.
The genre of an evening public lecture in an institution of 
scholarship does not really allow for a talk which is only
three minutes in length.  So none of you, trained as most of you
are in appreciating the force of genre and its influence on
the act of communication, will be terribly surprised to hear
me say that no, on the contrary, standards have everything
to do with humanities scholarship and the objects of our
research.</p>
<p>Sie wissen schon genau, da&szlig; dem nicht so ist.</p>
<p>Zum einen l&auml;&szlig;t die Gattung des Abendvortrags in
einer wissenschaftlichen Institution wie dem Institut f&uuml;r deutsche 
Sprache eigentlich keine Dreiminutenvortr&auml;ge zu.  
Kein Mensch wird erwartet haben, da&szlig; der Vortag
etwa so laute:<q type="block"><p>Standards in der 
geisteswissenschaftlichen Textverarbeitung?</p>
<p>
Es gibt keine.</p>
<p>Das w&auml;rs. Tsch&uuml;&szlig;, Ihr Lieben! </p></q>
Allein die Tatsache, da&szlig; der Empfang nachher
noch nicht fertig vorbereitet ist, w&uuml;rde das unm&ouml;glich machen.
</p>

<p lang="en">In the first place, exceptions cannot <emph>be</emph> exceptions
without the rule.  Marked features are marked in contrast to other
features which are, necessarily, unmarked. </p>
<p lang="en">Three reasons you won';t be surprised to hear me wsay ...<list>
<item lang="en">strength of genre expectations</item>
<item lang="en">no exception without rule -- every humanist continually
seeks the rule against which to interpret the exceptions ...
n.b. some think otherwise [think willard here].  they think
that conceiving of a standard eans conceiving of and
enunciating and meaning the demand that everyone conform to 
the standard.  But in reality, standards are just a means of
classification:  conforming, non-conforming.  Commercial
interests may assign further meaning, but to us, that
can be nebes&auml;chlich.</item>
<item lang="en">because of who you are and wha you do, you may be
particularly well placed to understand / appreciate the
role (and the limits) of standards in hum. t.p.</item>
</list>
</p>
<p>Den Zuh&ouml;rern, die die Macht der gattungsbedingten Erwartungen
schon gut kennen, wird es also keine &Uuml;berraschung bereiten, 
wenn ich sage, Nein, das ist kein Witz.  Die Standards haben
alles mit der Aufgabe und den M&ouml;glichkeiten der
geisteswisseschsaftlichen Textverarbeitung zu tun.
Aber das Verh&ae;ltnis bedarf der weiteren Er&oe;rterung.
</p>
<p>Die Geisteswissenschaften interessieren sich wie gesagt besonders f&uuml;r
die Ausnahme, f&uuml;r den merkmalhaften Fall.  Aber die Ausnahme kann
erst in Hinblick auf eine Regel als Ausnahme erkannt werden.  
<!--* Die markierten Merkmale [marked features]  *-->
Das Merkmalhafte 
eines jeden Ph&auml;nomens
wird erst im Gegensatz zu anderen notwendigerweise merkmallose
Eigenschaften der Sache &uuml;berhaupt deutlich. Die Regelm&auml;&szlig;igkeit &mdash;
der Standard &mdash; ist der Eigenart der Sache und damit ihrem Verstehen
untrennbar verbunden.</p>
<p>Es w&auml;re ein Irrtum, anzunehmen, der einzige Sinn und Zweck
der Standards sei, genau vorzuschreiben, wie ein Text, ein
W&ouml;rterbucheintrag, ein Lexikonartikel auszusehen habe, und
da&szlig; die Standards Ausdruck der Forderung seien, alles m&uuml;sse
gleichgeschaltet werden.  Genau genommen sind alle Standards und
Normen nur Hilfsmittel zur Klassifikation der Sachen: es sind eben Definitionen.
Sie erlauben es uns, die Sachen als der Norm konform oder
nicht konform zu beschreiben.  In den meisten kommerziellen
Anwendungen verlangt man in der Tat, da&szlig; ein Ger&auml;t,
oder ein Datenstrom, der jeweiligen Norm konform sei; diese
Bewertung liegt aber in der Natur der Anwendung, nicht im
Wesen der Standards selbst.
</p>
<p lang="en">Talk both about stds and about their limitations.  About
need to handle unusual cases.  About need for nuance.
Perhaps talk about optimizing for common cases.  
Perhaps talk about McGann.</p>
<p lang="en">Longevity = message to future.</p>
<p>Ich m&ouml;chte heute abend zuerst die besonderen Anforderungen
erw&auml;hnen, die man an Standards stellen mu&szlig;, wenn sie f&uuml;r
geisteswissenschaftliche Anwendungen taugen sollen.  Dann
m&ouml;chte ich einige Anforderungen und Schwierigkeiten beschreiben,
die aus dem Bestreben geisteswissenschaftlicher
Projekte erwachsen, um Lexika, W&ouml;rterb&uuml;cher, digitalisierte
Textausgaben, Korpora, und andere Grundlagenwerke, die
wir erstellen, der Nachwelt nutzbar zu machen.
Denn was man f&uuml;r die Nachwelt baut, ist eine Art
Botschaft oder Nachricht an die Zukunft.  Botschaften
und Nachrichten kommen aber nicht immer bei dem Empf&auml;nger an.
Was k&ouml;nnen und m&uuml;ssen wir machen, um die Wahrscheinlichkeit
des Erfolgs zu vergr&oe;&ss;ern?  
Zwischendurch werde ich einzelne Standards erw&auml;hnen, die
besonders relevant sind f&uuml;r die geisteswissenschaftliche Arbeit.
 </p>
</div>

<div>
<head>Anforderungen an Standards f&ue;r geisteswissenchaftliche Arbeit</head>
<p>Die geisteswissenschaftliche Arbeit stellt eine Reihe
von Anforderungen an Standards, und wenn man f&uuml;r die
eigene Arbeit sich einen Standard 
ausw&auml;hlen mu&szlig; &mdash; eine der sch&ouml;nsten Attribute der
heutigen Standards, ist die Tatsache, da&szlig; es derer so viele
gibt, man hat eine reiche Wahl und darf bzw. mu&szlig; sich 
eine eigene Palette davon zusammenstellen &mdash; wenn man einen Standard
w&auml;hlen mu&szlig;, wie beurteilt man, ob er f&uuml;r die
geisteswissenschaftliche Arbeit geeignet sei?</p>
<p>
Es spielt dabei die Tatsache ein Rolle, da&szlig; <emph>normiert wird,
was man schon gut versteht</emph>.  Das hei&szlig;t, das Gel&ae;ufige
wird zuerst standardisiert, das Ungew&oe;hnliche erst sp&ae;ter oder
gar nicht.
Die Gegenst&auml;nde
geisteswissenschaftlicher Aufmerksamkeit widerstreben oft die Normierung.
Wir untersuchen sie ja eben deshelb, weil man sie nicht vollkommen
versteht.  Es kann schwierig sein, geeignete Standards
zu finden.  Was verlangen wir als Geisteswissenschaftler von
den Standards?</p>
<div>
<head>Breite / Vollst&auml;ndigkeit</head>
<p></p>
<p lang="en">
      - support a broader range of data than just the
        commercially important (e.g. in character sets,
        but not only there)
</p>
<p>Erstens, die Vollst&ae;ndigkeit, oder wenigstens die Breite.</p>
<p>Der Standard soll f&ue;r das betreffende Gebiet so vollst&ae;ndig
sein, wie m&oe;glich.  Das gilt f&ue;r jede Ebene der Datenrepr&ae;sentation,
vom Zeichensatz bis hin zur Text- bzw. Datenstruktur und zur semantischen Ebene:
jede Ebene der Datenrepr&ae;sentation mu&ss; eine bestimmte Vielfalt
an Daten darstellen k&oe;nnen.</p>
<p>Jede Norm f&ue;r Zeichens&ae;tze z.B. stellt einen gewissen Vorrat
an Zeichen bereit.  Braucht man f&ue;r die Arbeit nur eine Untermenge
dieses Vorrats, so ist die Norm f&ue;r diesen Gebrauch vollst&ae;ndig
genug.</p>
<p>In dieser Hinsicht mu&ss; der sogenannte Universalzeichensatz
(UCS, Universal character set) erw&ae;hnt werden.  Dieser Universalzeichensatz
wird von zwei parallel entwickelten Normen definiert:  Unicode
(von dem Unicode-Consortium verabschiedet) und der internationalen
Norm ISO 10646.
Schon die erste
Version von diesen Standards hatte
einen Zeichensatz f&ue;r praktisch alle
standardisierten Schriftsysteme der Welt bereitgestellt.  Inzwischen
sind durch weitere Forschung und durch die gro&ss;e Verdienste von
vieler Philologen, darunter des Thesaurus Linguae Latinae und
des Thesaurus Linguae Graecae, 
tausende von neuen Zeichen aufgenommen worden, die in historischen
Schriftsystemen, und in Dutzenden von Minderheitsschriften, gebraucht werden.
Die historische Formen der griechischen und lateinischen Schriften
sind inzwischen einigermassen gut vertreten, und in der
n&ae;chsten Version von Unicode erwartet man, da&ss; auch die
notwendigen papyrologischen Zeichen aufgenommen werden.</p>
<p>F&ue;r viele Projekte darf die Zeichensatzmisere, an die viele
fr&ue;here Unternehmen der geisteswissenschaftlichen Datenverarbeitung
gelitten haben, und die mancher hier noch gut in Erinnerung hat,
als historisches Kuriosum gelten.  Man wird abends nach einem 
Glas Wein vielleicht alte Geschichten erz&ae;hlen, wie man den
Gro&ss;rechner des Rechenzentrums ausgetrickst hat, um die
notwendigen Zeichenformen auszudrucken, aber f&ue;r viele von uns
geh&oe;ren solche Bem&ue;hungen nicht mehr zur Tagesarbeit.
Daf&ue;r k&oe;nnen wir den Philologen dankbar sein, die es
m&oe;glich gemacht haben, den Universalzeichensatz so zu
erweitern.</p>
<p>&Ae;hnlich bietet uns jede Anwendung von SGML oder XML (jeder
XML-Auszeichnungssprache, oder XML-Wortschatz wie man in Anlehnung an
das Englische <q>XML vocabulary</q> sagen k&oe;nnte) eine bestimmte
Anzahl von Terminis an, mit denen man eine bestimmte Anzahl der
Textstrukturen oder Textph&ae;nomene unterscheiden und auszeichnen
kann.  Wenn alle Textstrukturen, f&ue;r die man sich interessiert, mit
diesen Terminis ausgezeichnet werden k&oe;nnen, so ist die Auszeichnungssprache
vollst&ae;ndig genug.</p>
<p>Wer z.B. technische Handb&ue;cher mittels DocBook auszeichnen will,
wird meistens alles in Docbook finden, was er braucht.  Gedichtsammlungen
gegen&ue;ber weist aber Docbook peinliche L&ue;cken auf: f&ue;r
diesen Zweck kann Docbook nicht als vollst&ae;ndig gelten.</p>
</div>
<div>
<head>Erweiterbarkeit / Extensibilit&auml;t</head>
<p lang="en">
      - allow extension
</p>
<p>Zweitens, die Erweiterbarkeit.</p>
<p>Bezeichnend f&ue;r die geisteswissenschaftliche Arbeit ist,
da&ss; die absolute Vollst&ae;ndigkeit ein Chim&ae;re ist,
manchmal aus rein praktischen Gr&ue;nden, aber oft auch aus
theoretischen.</p>
<p>Das sogenannte Universal Character Set (UCS), der universeller Zeichensatz
von ISO 10646 und Unicode nimmt sich vor, einen Zeichenvorrat f&ue;r 
alle Schriftsysteme aller Sprachen bereitzustellen, einschlie&ss;lich
der archaischen Zeichen alter Schriftsysteme.  Und wie schon
gesagt hat man hier viel geleistet.
Es ist aber leicht einzusehen, da&ss; dies als Zielsetzung bewundernswert,
als Beschreibung eines real existierenden und jetzt auf immer
geschlossenen Zeichensatzes aber
fast undenkbar ist.  
Denn wir k&oe;nnen jederzeit neue Schriftsysteme
entdecken oder entschl&ue;sseln.  Es ist ja nicht so lange her, 
da&ss; man durch die Entschl&ue;sseling der Schrift <hi>Linear B</hi>
jede Menge neuer Einsichten in die antike Kultur gewonnen hat.</p>
<p>Und es gibt in der Tat eine Reihe von Schriften, die auch in
der n&ae;chsten Version von Unicode voraussichtlich nicht
ber&ue;cksichtigt werden.</p>
<p>Es gibt auch Zeichen, die man gelegentlich als Zeichen braucht,
die aber kaum in einen Standard with Unicode oder ISO 10646 passen.
Wilhelm Schlegel (oder was es Friedrich?) benutzt in seinen
Tageb&uuml;chern oft ein Zeichen, das wie eine Parabol (oder die
H&ae;lfte einer Hyperbol) aussieht, mit einem P&ue;nktchen am
Fokus.  Das Zeichen bezeichnet offensichtlich die Unendlichkeit,
oder das Unendliche.  Es w&ae;re praktisch undenkbar, Schlegels
Tageb&ue;cher ohne dieses Zeichen herauszugeben oder zu digitalisieren.
Aber es w&ae;re ebenso undenkbar, dieses Zeichen in das
Universal Character Set eingliedern zu wollen:  es geh&oe;rt nicht
dahin, denn es ist nicht Teil eines kulturell getragenen Schriftsystems,
sondern ist eine rein private Abk&ue;rzung.</p>
<p>
Oder man denke an die Abk&ue;rzungen der antiken und mittelalterlichen
Handschriften.  Wer Handschriften mit pal&ae;ographischer Genauigkeit
nachschreibt, wie etwa in den Handschriftenausgaben der
arnamagnaeanischen Institute in Kopenhagen und Reykjav&iacute;k,
wird bestimmen m&ue;ssen, welche handschriftlichen Unterschiede
hier als graphematisch anzusehen sind, und welche als blo&ss;
graphetische Unterschiede nicht in die Transkription geh&oe;ren.
Dazu braucht man einen gro&ss;en Vorrat an Sonderzeichen.  Aber 
will man jede Schreibart mit in Unicode aufnehmen, die in Capellis Katalog der 
Handschriftenabk&uuml;rzungen vorkommt?</p>
<p>Es ist also wichtig, da&ss; man den Standard erweitern kann,
wenn es unbedingt n&oe;tig ist.  Ich h&ae;tte mich zum Beispiel
geweigert, den Universalzeichensatz des Unicodes und der
ISO 10646 als den einzigen zul&ae;ssigen Zeichensatz von 
XML-Dokumenten zu akzeptieren, wenn den beiden Standards nicht
die sogenannte Private Use Area eingegliedert w&ae;re, mittels
derer man den Standardzeichensatz erweitern kann.</p>
<p>Die Zeichen der Private Use Area sind nicht standardisiert,
und bed&ue;rfen der Dokumentation und der Sonderbehandlung,
d&ue;rfen also nur dann benutzt werden, wenn es dringend
notwendig ist. Aber es ist eben manchmal dringend notwendig,
einen Standard zu erweitern.  Es ist gut, wenn der Standard 
diese M&oe;glichkeit von vornherein anerkennt und daf&ue;r
Regel anbietet.</p>
<p>In der Praxis kann man oft die L&uuml;cken eines Standards
wenigstens zum Teil auf h&oe;heren Ebenen wieder f&ue;llen.
Wenn man z.B. wie manche Sachkundige wom&oe;glich vermeiden
will, Zeichen im Private Use Area von Unicode direkt zu
benutzen, kann man die notwendigen Zeichen des Textes
durch Auszeichnungen in einer Auszeichnungssprache 
darstellen, etwa mit einem XML-element namens
<ident>Zeichen</ident> oder <ident>char</ident>,
wie es in der Auszeichnungssprache MathML oder in den
Richtlinien der Text Encoding Initiative beschrieben wird.
Diese Ausweichm&oe;glichkeit, die Flucht auf die
h&oe;here Ebene, hat ihre Nachteile (die
unterschiedliche Darstellung der Zeichen sticht z.B.
ins Auge), darf aber nicht
vernachl&ae;ssigt werden.
</p>
<p>Bei der Auszeichnung der Textstruktur st&oe;&ss;t man
etwas schneller an die Grenzen der vorhandenen Standards,
die XML-basierte Auszeichnungssprachen definieren.  Die Richtlinien der
TEI behandeln eine reiche Vielfalt an Textstrukturen, die
man in anderen &oe;ffentlich zug&ae;nglichen Auszeichnungssprachen
(wie etwa Docbook oder HTML) vermi&ss;t.  Ihr Ziel war es
ja, die Auszeichnung von Texten zu erm&oe;glichen, die f&ue;r
die geisteswissenschaftliche Forschung interessant
sein k&oe;nnten.  Das hei&ss;t aber, da&ss; sie beliebige
Texte, beliebige Gattungen, in beliebiger Sprache, 
f&ue;r beliebige wissenschaftliche Interessen, behandeln m&ue;ssen.
Manches ist da verh&ae;ltnism&ae;&ss;ig gut ausgebaut,
aber L&ue;cken gibt es da genug.</p>
<p>
Es ist daher Grundprinzip der TEI-Guidelines, da&ss; man
die Auszeichnungssprache erweitern und umdefinieren kann, ohne deswegen
den Richtlinien nichtkonform zu sein.<list>
<item>Viele Elemente k&oe;nnen mit Hilfe des Attributs
<ident>type</ident> ohne gro&ss;en Aufwand spezialisiert
werden.</item>
<item>Neue Elemente k&oe;nnen der Sprache hinzugef&ue;gt werden.</item>
<item>Fast alle vordefinierte Elemente der Auszeichnungssprache 
d&ue;rfen weggelassen werden.</item>
<item>Die Grundstruktur existierender Elemente darf
ge&ae;ndert werden.</item>
</list>
Mit diesen Mitteln, versucht man in der TEI die
Ausnahmefreundlichkeit der Richtlinien und die Toleranz f&uuml;r 
Spezialf&auml;lle zu erh&oe;hen.
</p>
<p>Man kann nat&ue;rlich noch mehr machen.</p>
<p>Der Sinn des Namens <mentioned>Extensible Markup
Language</mentioned> (<gloss>erweiterbare
Auszeichnungssprache</gloss>) besteht darin, da&ss;
man mit XML beliebige Textstrukturen auszeichnen kann,
eben weil man eigene XML-Tags, und damit ganze
eigene Auszeichnungssprachen, 
definieren kann.</p>
<p>Bei der Entwicklung von XML und vordem von SGML
hat man die Erweiterbarkeit der Auszeichnungssprache
dadurch garantiert, da&ss;
man gar keine Auszeichnungssprache definiert hat
(der Name ist historisch begr&ue;ndet, ist aber
irref&ue;hrend),
sondern nur eine
Metasprache zur Definition von Auszeichnungssprachen
definiert hat.  Hier sieht man eine wichtige Methode
der Erweiterbarkeit, die ich die Flucht in die
Metasprache, oder die Flucht in die
Abstraktion nenne.  Eben weil man &ue;ber die
richtige Auszeichnungssprache uneinig ist, einigt man sich
darauf, da&ss; ein jeder eine eigene Auszeichnungssprache
mu&ss; definieren k&oe;nnen.</p>
</div>
<!--* 
<div>
<head>Ausdrucksf&auml;higkeit, Nuance</head>
<p lang="en">Nuance, flexibility.</p>
<p>:
</p>
<p lang="en">
      - how to retain nuance, allow the user to avoid
        oversimplification
</p>
</div> *-->
<div>
<head>Toleranz f&uuml;r unvollst&auml;ndigkeit</head>
<p lang="en">
      - support partial information
</p>
<p>Es ist auch wichtig, da&ss; der Standard es dem 
Wissenschaftler freil&ae;&ss;t, Informationen
unvollst&ae;ndig anzugeben, denn manchmal wei&ss; man
eben nicht alles &ue;ber die Gegenst&ae;nde der
Untersuchung.</p>
<p>
Dies kann eine heikle Sache werden, denn die automatische
Nachpr&ue;fung der Daten um Vollst&ae;ndigkeit ist ein
wichtiger Hilfsmittel, um Fehler bei der Dateneingabe
und bei der Verarbeitung und Wiederspeicherung der Daten
zu entdecken.
</p>
</div>
<!--* <div>
<head>Idealisation und Konkretheit</head>
<p lang="en">
      - support, and allow focus to alternate between,
        idealization and simplification on the one hand
        and concretization and specific detail on the
        other
</p>
</div> *-->
</div>

<div>
<head>Botschaften an die Zukunft</head>
<p lang="en">But some of the biggest challenges for
hum. computing come from the fact that in the nature of things,
our goals include the preservation of information from and
about the past, to ensure its accessibility in the future.</p>
<p>Soweit zu den Anforderungen, die wir als Geisteswissenschaftler
an die Standards stellen m&ue;ssen.</p>
<p>Es gibt auch einige Anforderungen, die an die geisteswissenschaftlichen Projekte
gestellt werden, eben weil unsere Projekte als Ziel haben,
Werkzeuge f&ue;r die Nachwelt vorzubereiten.</p>

<div> 
<head>Lebensdauer der Technik und der Daten</head> 

<p lang="en"> Computer hardware comes and goes. You may plan for a two- or
three-year replacement cycle, or you may try to keep laptops or other
machines for five years. Five-year old machines, however, have an
alarming tendency to break down without warning. You're not likely to
have any computer equipment on a twenty- or thirty-year, or even a
ten-year replacement cycle. </p>
<p>Die Computertechnik entwickelt sich nach wie vor im rasenden Tempo.
Viele Organisationen rechnen damit, da&ss; alle Hardwares jede zwei
bis drei Jahre ersetzt werden; manche versuchen, die Maschinen im
Durchschnitt f&ue;nf Jahre lange in Betrieb zu halten &mdash; Maschinen
im Alter von f&ue;nf Jahren neigen aber zu unerwarteten und
katastrophalen Pannen.  Wer denkt schon daran, Rechner im
Drei&ss;ig- oder Zwanzigjahrenzyklus, oder selbst im 
Zehnjahrenzyklus, zu erneuern?</p>
 
<p lang="en"> Software often lasts somewhat longer. Individual versions of
software come and go, but a given brand may be available, or even
remain dominant, for a decade or more. </p>
<p>Die Softwares bleiben oft etwas l&ae;nger leistungsf&ae;hig.
Die verschiedenen Versionen einer Software ersetzen sich vielleicht
regelm&ae;&ss;ig, aber es gibt durchaus Softwares, die jahrzehntelang
zug&ae;nglich sind, oder sogar jahrzehntelang den Markt beherrschen.
Jahrzehntelang, aber man kann noch nicht sagen:  &ue;ber viele
Jahrzehnte hinweg.
(Tustep, jetzt bald im Alter von drei&ss;ig Jahren, 
ist ja in der Softwarewelt ein Greis.)
</p>
 
<p lang="en"> But the data we work with and care about often has a much longer
life. Our contract with the telephone company may run for five, or
ten, or fifty years. Health records may &mdash; ought, ideally &mdash; to last
our lifetimes or longer. Information about parents' and grandparents'
medical histories may be crucial to a physician trying to make a
diagnosis. Buildings may have a thirty-year depreciation schedule for
tax purposes, but in reality they may last much longer than that. </p>
<p>Aber die Daten, um die wir uns k&ue;mmern, leben viel l&ae;nger.
Selbst kommerzielle Daten bleibe viel l&ae;nger aktuell, als Hardware
und Software.  Der Vertrag mit dem Telefondienst l&ae;uft 
f&ue;nf, oder zehn, oder f&ue;nfzig Jahre.  Die &ae;rztlichen
Unterlagen sollten idealerweise uns das ganze Leben lang zugreifbar
bleiben, oder noch l&ae;nger, denn die [medical history] unserer
Eltern k&oe;nnen durchaus bei der Diagnose von Belang sein.
F&ue;r Steuerzwecke haben oft Immobilien eine 
<!--* Entwertungsperiode [?] *-->
Abschreibungsdauer
von etwa drei&ss;ig Jahren, werden aber viel l&ae;nger in Stand gehalten.</p>
<p>
Und das sind nur die einfachsten rein kommerziellen Beispiele.
Wer die menschlichen Sprachen, Literaturen, und Kulturen als
Forschungsgegenstand hat, pflegt, Daten im Alter von f&ue;nf bis
zwanzig Jahrhunderte zu verarbeiten.  Selbst die Vorbereitung eines
W&oe;rterbuches nimmt in manchen F&ae;llen mehr Zeit in Anspruch, als 
die Geschichte der elektronischen Rechentechnik aufzuweisen hat.
</p>
 
<p lang="en"> If we have to re-create all the data we care about, every time we
change hardware or software, the cost will often be prohibitive. If we
have to <emph>tranform</emph> all our data, by importing it into the new
system, the cost will still be high. If the import process is lossy,
the cost will be higher.</p>
<p>Wenn wir bei jeder neuen Maschine, bei jeder Aneignung einer neuen
Software, alle Daten wieder neu erstellen m&ue;&ss;ten, so k&ae;men wir
nie &ue;ber die Anfangsstadien unserer Projekte hinaus.</p>
 
<p lang="en"> It is much better to have our data in a form that can remain
unchanged for a data lifteime, that can be used as a long-term
archival format, and that allows easy transformation into
application-specific formats. How do we do it? How do we future-proof
our data?</p>
<p>Wenn wir unsere Daten und Forschungsresultate, und die Werkzeuge,
die wir uns bauen &mdash; Korpora, Ausgaben, W&oe;rterb&ue;cher, Lexika &mdash;
nicht nur f&ue; den eigenen Gebrauch erhalten wollen, aber noch &ue;ber
das eigene Leben hinaus der Nachwelt zur Verf&ue;gung stellen wollen,
sollten wir uns ernsthaft dar&ue;ber Gedanken machen, wie wir die
Daten in einer dauerhaften und nachhaltbaren Form [Format?] 
speichern k&oe;nnen, aus der wir wenns notwendig ist auch 
anwendungsspezifischen Formen ableiten k&oe;nnen.  Wie macht man 
das?  Wie sichert man die Daten f&ue;r die Zukunft?</p>
 
<p lang="en"> The remainder of this paper offers a partial answer to these
questions. Section 2 applies a general model of communication to the
problem and identifies several possible points of failure, which can
be avoided with the right practices. Section 3 discusses one
particular problem at greater length: how to preserve the semantics of
the data. </p>
<p>Man kann diese Fragen vielleicht am besten beantworten, 
wenn man hier die Botschaften an die Zukunft im Licht eines
allgemeinen Kommunikationsmodells betrachtet, das vom dem
gro&ss;en Strukturalisten Roman Jakobson 1960 vorgeschlagen
wurde.</p> </div>
 
<div> 
<head>Erfolg und Fehlschlag</head> 

<p lang="en"> As we will use the term, to <emph>future-proof</emph> our data means
to ensure (or at least improve the chances) that the data we invest in
today will be usable in the future. Structurally, this is analogous to
the problem of exchanging data with other people or organizations: the
future is another country; they do things differently there. There are
some twists. The recipient we have in mind is likely to be us, or our
successor, or our organization, in the future &mdash; but in many essential
ways we do not know who the recipient is: we do not know what we will
have learned between now and then, our organization may have changed
or taken over or been taken over by other organizations, with
resulting changes to culture, goals, and needs. The situation may have
changed dramatically. (This is not at all unusual when new data or
software is provided: long before the original plan is completed, the
delivery of the first installments may reach critical mass and change
the situation dramatically &mdash; one reason to plan to review your plan
periodically.)  And even if the goals of the recipient are
substantially what we foresee, we do not know what the technical
environment will be, what hardware or software will be used to exploit
it. We don't know and cannot ask, because communications with the
future are one-way only, at least until time travel becomes reliable
and prices come down to something we can fit onto our project
budget. So the recipient cannot receive our message, inspect it, and
then write us back saying "Message not understood; please
re-transmit." When you send messages to the future, you get no
feedback. It's a little bit like sending messages in a bottle, or to a
spies so deep undercover that they cannot send any acknowledgements to
your messages.
</p>
<p>Als Zukunftsicherung der Daten bezeichne ich das Bem&ue;hen,
sicherzustellen (oder wenigstens die Wahrscheinlichkeit zu 
erh&oe;hen, da&ss; die Daten, die wir m&ue;hevoll und teuer erstellen,
f&ue;r die Nachwelt nutzbar seien. 
Im Grunde genommen gleicht dies dem Problem des Datenaustausches mit
anderen Projekten oder Organisationen:  Die Zunkunft ist ein fremdes
Land, man macht dort vieles anders.  In mancher Hinsicht unterscheiden
sich diese zwei Probleme:  der 
<!--* intendierte *--> Empf&auml;nger 
der Daten z.B. sollen
wir oft selbst sein, und nicht andere, aber im wesentlich kennen wir
auch dann den Empf&ae;nger auf eine sehr unvollkomme Weise.  Wir 
werden bis dahin einiges gelernt, oder vergessen, unsere Institutionen
werden vielleicht neue Richtungen eingeschlagen haben.  Die Lage
kann sich drastisch ge&ae;ndert haben.  (Das kommt nicht ganz selten
vor, wenn man neue oder neuartige Daten und Softwares bereitstellt:
lange, bevor man den Originalplan zu Ende gef&ue;rht hat, k&oe;nnen
die ersten Teillieferungen die Lage grundliegend &ae;ndern.)</p>
<p>Und selbst wenn der Empf&ae;nger die selbe Ziele hat, die wir
erwarten, kennen wir doch nicht die technische Umgebung, in der
er arbeitet, wir wissen nicht, was f&ue;r Hardware und Software zur Verf&ue;gung stehen wird,
unsere Daten auszunutzen.  Wir wissen es nicht und k&oe;nnen es nicht
erfahren, denn die Kommunikation mit der Nachwelt ist eine Art
Einbahnstra&ss;e, ein Write-Only Datentr&ae;ger.  Der Empf&ae;nger kann
nicht unsere Botschaft empfangen und inspizieren, und dann uns eine
R&ue;ckmeldung schicken <q>Botschaft nicht verstanden.  Bitte
nochmals senden.</q> Wer Botschaften an die Zukunft sendet, 
bekommt keine R&ue;ckmeldungen.  Es ist eine Art Flaschenpost,
oder als ob man Botschaften an Spionen senden w&ue;rde, die
so geheim arbeiten m&ue;ssen da&ss; sie sich keine R&ue;ckmeldung
leisten k&oe;nnen.</p>

 
<p lang="en"> So it behooves us to anticipate as fully as possible all the ways
our messages can fail, to try to forestall them.  We propose to do
this by considering a model of communication originally proposed by
the linguist Roman Jakobson in 1960 [<xref href="#jakobson-1960">Jakobson
1960</xref>]. </p><p>
In dieser Lage m&ue;ssen wir alle Fehlerm&oe;glichkeiten des Vorgangs
voraussehen und vermeiden.  Alle Bruchstellen der Verbindung zwischen
Sender und Empf&ae;nger m&ue;ssen untersucht werden, um m&oe;gliche Pannen zu
vermeiden.  Dazu diene uns das Kommunikationsmodell von Roman Jakobson.
</p>

<p lang="en">A message, Jakobson pointed out, obviously has a speaker (or
sender) and a hearer (or receiver). </p>
<p>Ein Mitteilung, so Jakobson, hat offensichtlich einen Sender, und einen Empf&ae;nger</p>

<p lang="en"><figure entity="RJ3">
</figure>
</p><p lang="de"><figure entity="sbe">
</figure>
</p>
<!--*
<p class="figure">
<img src="RJ3.png" alt="Sender - Message - Receiver" height="31" width="523">
</p>
*-->
 
<p lang="en"> The message may tell us primarily about the sender (this Jakobson
calls the <term>expressive</term> function of language), or it may tell the
receiver to do something (the <term>conative</term> function). But the
message is usually <term>about</term> something else; it refers to things
in the real world. The message has a referent: </p>

<p>Die Mitteilung kann vor allem dazu bestimmt sein, &ue;ber den Sender Auskunft
zu geben.  Jakobson schreibt demgem&ae;&ss; eine <term>Ausdrucksfunktion</term> oder
emotive Funktion der Sprache 
und der Mitteilung zu.  Oder sie kann dem Empf&ae;nger einen Auftrag oder einen Befehl
geben: das ist die Aufforderungsfunktion oder die konative Funktion.</p>
<p>Meistens aber handelt es sich um eine Mitteilung, die sich auf eine Sachlage
in der Welt (oder im <term>Kontext</term>) bezieht; eine so ausgerichte Mitteilung
&ue;bt die referentielle Funktion der Sprache aus.</p>
<p lang="en"><figure entity="RJ4">
</figure>
</p><p lang="de"><figure entity="sbek">
</figure>
</p> 

<!--* 
<p class="figure">
<img src="RJ4.png" alt="Sender - Message - Receiver" height="134" width="523">
</p> *-->
 
<p lang="en"> Communication takes place, however, only if the sender and
receiver are in contact through some channel. The message must
actually pass from the sender to the receiver. For spoken
communication, this means we have to be close enough that you can hear
me, or else I need a bullhorn, or I need a radio transmitter and you
need a receiver, or I need to be sending a podcast and you need a
player, and so on. For written works, the distance between us must be
traversed by some piece of paper, or a series of papers; works written
in antiquity or the Middle Ages can be read today only if at least one
manuscript has, over the centuries, outwitted the enemies of
information by surviving.  Even in modern times, plenty of written
works have disappeared, victimes of war, state censorship, or the
fireplaces of surviving relatives. Language is sometimes used just to
confirm that the channel is functioning correctly (Jakobson calls this
the <emph>phatic</emph> function of language.) If we add the channel,
Jakobson's diagram looks like this: </p>
<p>Die Kommunikation findet aber nur dann statt, wenn der Sender
und der Empf&ae;nger k&oe;rperlich in Kontakt stehen.
Die Mitteilung mu&ss; ja physikalisch vom Sender zum Empf&ae;nger kommen.
Im Fall von gesprochenen Mitteilungen hei&ss;t das, da&ss; der
Sprecher (der Sender) und der H&oe;rer (der Empf&ae;nger) in unmittelbarer N&ae;he
zueinander sind, es sei denn, Lautsprecher oder Funkger&ae;te kommen
ins Spiel.  Im schriftlichen Fall mu&ss; der Schrifttr&ae;ger 
vom Sender zum Empf&ae;nger kommen, entweder direkt oder durch eine
Art Staffellauf, wo mehrere Abschriften einen Teil der Strecke
zur&ue;cklegen k&oe;nnen.  Werke der Antike oder des Mittelalters
kann man heute nur dann lesen, wenn wenigstens <emph>eine</emph>
Hs die Feinde der Information &ue;berwunden hat und bis in unsere
Zeit &ue;berlebt hat.  Selbst in der Neuzeit sind viele Werke
dem Krieg, der Zensur, oder den Kaminen &ue;berlebender Verwandter
des Autors zum Opfer gefallen.  Eine Mitteilung oder Botschaft
kann auch als Zweck haben, einfach sicherzustellen, da&ss; dieser
Kontakt richtig funktioniert.  (Hallo? Hallo? H&oe;ren Sie?  Funktioniert
diese Lautsprecheranlage?) 
Das ist die <emph>phatische</emph> Funktion der Sprache.
Wenn wir den Kontaktweg hinzuf&ue;gen, sieht die Zeichnung so aus: </p>
<p lang="en"><figure entity="RJ5">
</figure>
</p><p lang="de"><figure entity="sbekk">
</figure>
</p>
<!--*
<p class="figure">
<img src="RJ5.png" alt="Sender - Message / Referent / Channel -
Receiver" height="252" width="523"> </p>
 *-->
<p lang="en"> Contact alone, however, is not enough. Communication only happens
if the sender and receiver speak a common language, share a common
code. The <term>metalinguistic</term> function of language is used to
establish or repair the commonality of the code:</p>
<p lang="de">Der Kontakt aber gen&ue;gt nicht. Die Kommunikation findet
nur dann statt, wenn der Sender und der Empf&ae;nger beide das selbe sprachliche System
(denselben Code) beherrschen.
Die  <term>metalinguistische</term> Function der Sprache dient dazu,
die Gemeinsamkeit des sprachlichen Systems herzustellen oder wieder
in Gleichgewicht zu bringen.</p>
<p lang="en"><figure entity="RJ6">
</figure>
</p><p lang="de"><figure entity="sbekkc">
</figure>
</p>
<!--* 
<p class="figure">
<img src="RJ6.png" alt="Sender - Message / Referent / Channel / Code -
Receiver" height="260" width="523"> </p>
 *-->
<p lang="en"> Jakobson was interested in elucidating different functions
performed by human language, but we can use his model to help us
systematically about points of failure in our endeavor to send
messages to the future. </p>
<p>Jakobson wollte die Funktionen der Sprache erl&ae;utern, aber
sein Modell kann uns dazu dienen, die verschieden Ausfallarten der
Kommunikation zu verstehen.</p>

<div> 
<head>Ausfall beim Sender </head> 

<p lang="en"> The first failure point is you. You could decide to throw the data
away instead of preserving and reusing it. You could <emph>delete</emph>
it. That's not necessarily a bad idea. But presumably, if you're
reading a paper about future-proofing your data, you have
<emph>some</emph> data you've decided not to throw away. </p>
<p>Die erste m&oe;gliche Bruchstelle in der Verbindung von Sender und Empf&ae;nger
liegt beim Sender.  Wenn wir Botschaften an die Zukunft senden, dann
sind wir das.  Wir k&oe;nnen aus Absicht oder Versehen die Daten
&ue;berhaupt nicht senden; wir k&oe;nnten sie verlieren oder l&oe;schen, 
statt sie aufzubewahren und wiederzubenutzen.</p>
 
<p lang="en"> A second failure of the sender is failure to say what you mean. In
XML terms, this means succumbing to the temptation to tag abuse, poor
modeling, and other semantic ills. We'll discuss semantics in more
detail below. For now, suffice it to say that you wish to be able to
reuse certain information in the future, it's important to have a
clear idea of what, exactly, the information you care about really
is. In a document, this will lead you to want to say of one phrase
that it is a programming-language keyword, of that other phrase that
it is a technical term, of a third that it is a foreign word; it will
lead you <emph>not</emph> to say that your current house style decrees
that they are (to be) printed in italics. When (not if) your house
style changes, those phrases may not all still be in italics, but the
first will still be a programming language keyword, the second a
technical term, the third a foreign word. If you focus on the salient
information, you reduce unnecessary churn. </p>
<p>Oder, und das ist eine zweite Ausfallart, es k&oe;nnte vorkommen,
da&ss; wir nicht sagen, was wir meinen.  Im Bereich XML hei&ss;t das,
wir k&oe;nnten dem Tagmi&ss;brauch, dem schlechten Modellieren, oder
anderen semantischen &Uuml;beln unterliegen.  Die Semantik soll sp&ae;ter
diskutiert werden.  Im Moment gen&ue;gt es, zu sagen:  wenn mann 
bestimmte Informationen in Zukunft wiederbenutzen will, so ist
es wichtig, im Klaren &ue;ber die Natur dieser Information zu sein.
In einem literarischen Werk wird dieses Anliegen dazu f&ue;hren, da&ss;
man am liebsten die eine Stelle as Personennamen, die andere als
terminus technicus, die dritte als Fremdwort, auszeichnet, auch wenn in der
Stilvorlage alle drei in der gleichen Schriftart (etwa:  schr&ae;g)
gesetzt werden sollen.  Wenn man mal die Stilvorlage &ae;ndert (und
das kommt doch vor), wird sich die Schriftart der einen oder der
anderen Stelle &ae;ndern, doch nicht die Tatsache, da&ss; es um
Personnenname, terminus technicus, oder Fremdwort handelt.
Wenn man sich auf die sachliche Auszeichnung konzentriert, so
vermeidet man viele unn&oe;tige &Ae;nderungen.</p>
 
<p lang="en"> In a data-oriented application, the effort to say what you mean
will lead you to do your modeling carefully, distinguishing
constraints imposed by yhour implementation choices from constraints
imposed by policy decisions from constraints imposed by the nature (as
you understand it) of the things you are modeling. <!--[expand this!]
--></p>
 
<p lang="en"> The ability to say what you mean, instead of having to fit your
utterance to some predefined scheme of semantic primitives is one of
the most liberating aspects of SGML and XML vis a vis other methods of
document representation. The responsibility for deciding what you mean
and for saying it clearly is one of the most sobering aspects. With
freedom comes responsibility.
</p>
<p>Die F&ae;higkeit, das zu sagen was man sagen will, statt die
Aussage einem vordefinierten Schema von semantischen Primitivfunktionen
anzupassen, l&ae;&ss;t den Gebrauch von SGML und XML fast wie eine Befreiung
erscheinen, wenn man an andere Methoden der Textdarstellung gewohnt ist.</p>
<p>Damit verbunden ist ein ern&ue;chternde Verantwortung, denn wenn man
genau das sagen kann, was man sagen will, so mu&ss; man sich eben entscheiden, 
was man eigentlich sagen will.</p>
</div>
 
<div> 
<head> Ausfall beim Empf&ae;nger </head> 

<p lang="en"> A second point of failure is the receiver. The future could decide
not to listen to your message. There's not much we can do about that,
except perhaps to make sure it's easy for them to know what's in the
message so they don't discard it through misunderstanding what it
is. </p>

<p>Eine zweite Bruchstelle stellt der Empf&ae;nger dar.  Es kann sein, da&ss;
der zukunftiger Empf&ae;nger unserer Botschaft gar nicht auf diese Botschaft
achtet, nicht zuh&oe;rt, f&ae;ngt damit nichts an.  Dagegen kann man nicht
viel unternehmen, au&ss;er da&ss; wir es dem Empf&ae;nger leicht machen, zu
wissen, worum es sich bei dieser Botschaft dreht.  So kann man
vielleicht verhindern, da&ss; unsere Arbeit aus Versehen weggeschmissen
wird, weil der Empf&ae;nger (und hier bitte die Erinnerung daran wach halten,
da&ss; es sich hier sehr oft um uns selbst handelt) nicht mehr die Bedeutung
oder den Ursprung der Daten durchschaut.
</p>
<p lang="en"> A more subtle failure is also related to the receiver. Remember &mdash;
appearances to the contrary notwithstanding, when you send messages to
the future <emph>you do not know who the receiver is</emph>. You do not
know what their capabilities are. It follows that in the bottles we
send to the future it rarely makes sense to include messages with an
imperative semantics.  Declarative semantics are much more likely to
remain relevant after the passage of time, just as declarative
semantics are key to making data reusable, device independence, and
application independence today. </p>
<p>Eine zweite Ausfallart beim Empf&ae;nger besteht darin, da&ss; wir vergessen,
<emph>da&ss; wir nicht wissen, wer der Empf&ae;nger ist</emph>.  Wir wissen
vor allem nicht, was der Empf&ae;nger <emph>kann</emph>, was seine F&ae;higkeiten sind.
Es ist folglich meistens sinnlos, ihm per Flaschenpost zu bestimmten
T&ae;tigkeiten anzuregen, ihm Befehle zu erteilen, ihm eine Botschaft mit
<emph>imperativer Semantik</emph> zukommen zu lassen.  Eine 
deklarative Semantik hat viel gr&oe;&ss;ere Chancen, auch in zuk&ue;nftiger
Zeit relevant zu bleiben, genauso wie die deklarative Semantik
heute eine Schl&ue;sselposition hat, wenn man die Wiederverwendbarkeit,
die Ger&ae;teunabh&ae;ngigkeit, und die Anwendungsunabh&ae;ngigkeit der
Daten gew&ae;hrleisten will.</p>
</div>
 
<div> 
<head>Ausfall beim Kontakt </head> 

<p lang="en"> A third point of failure is the loss of contact. </p>
<p>Die dritte m&oe;gliche Bruchstelle liegt darin, da&ss; man den 
Kontakt zwischen Sender und Empf&ae;nger verliert.</p>
<p>Diese Ausfallart tritt dann ein, wenn der Datentr&ae;ger verloren
geht, aus internen Gr&ue;nden nicht mehr zu lesen ist, oder
mit neu erworbenen Maschinen nicht mehr zu lesen ist.  In den
80er Jahre haben gewissenhafte Benutzer ihre Dateien regelm&ae;&ss;ig
auf Disketten gespeichert, um sie zu archivieren.  Jetzt
sitzen dies Benutzer auf einem gro&ss;en Haufen Disketten in 
der Gr&oe;&ss;e von 5 Zoll, die keine Maschine mehr lesen kann.  Wenn
man noch 3-Zoll Disketten hat, soll man sie schnell auf neue
Datentr&ae;ger &ue;berspielen, bevor die letzte zug&ae;ngliche Maschine im Haus,
die ein Diskettentreibwerk noch hat, spurlos verschwindet.</p>
 
<p lang="en"> The media containing the message may be lost or go bad; they may
become unreadable on new hardware. In the 1980s conscientious users
will have religiously made archival copies of data they cared about,
so today those users are saddled with large boxes of 5 1/4" floppy
disks that cannot be read by any device they still possess. If they
were foresighted, they copied them onto 3 1/2" disks when the time
came. And the time has now come to copy them again onto some other
medium, before the last floppy drive in their establishment goes the
way of all flesh. </p>
 
<p lang="en"> Many large organizations, including libraries, address this
problem (or try to) by means of digital-library software which manages
the copying of data and its metadata. But precisely because they are
designed to deal with large volumes of material, these systems can
resemble sausage grinders. There is a risk that nuances, subtlety &mdash;
anything not written down &mdash; will be lost in the process. So <emph>write
things down</emph>. </p> 

<p>Manche Bibliotheke und Rechenzentren versuchen, diese Ausfallart
dadurch auszuweichen, indem sie alle Datentr&ae;ger regelm&ae;&ss;ig
kopieren.  Viele setzen daf&ue;r Softwares f&ue;r die Verwaltung von
digitalen Bibliotheken ein, die das Kopieren der Daten und der
dazugeh&oe;rigen Metadaten bewerkstelligen.  Solche Softwares sind
dazu konzipiert, sehr gro&ss;e Datenmassen zu bew&ae;ltigen,
aber die Verbindung zu dem urspr&ue;nglichen Kontext geht in 
solche Massensystem leicht verloren.  Es r&ae;t sich, dabei
m&oe;glichst alles aufzuschreiben, was der zuk&ue;nftiger Empf&ae;nger 
vielleicht wissen mu&ss;, wenn er die Daten innerhalb dieser
Digitalbibliothekssoftware eines Tages herumliegen findet.</p>

</div>
 
<div> 
<head> Ausfall im Code </head> 

<p lang="en">One of the most obvious possible points of failure, at least to
those who moved data among unlike systems in the 1980s and earlier, is
the possibility that the recipient won't understand the coded
character set (or character encoding) used in the message. Precisely
because it is no important and ubiquitous, character encoding can
easily become invisible to users and developers alike. It goes without
saying, surely, that all data "we" produce uses the character set
built into our hardware and software, whether that is the Radio Shack
extension to ASCII; or the Hewlett-Packard International Character Set
(so documents can be printed conveniently on the HP LaserJet down the
hall), or the code page built into the IBM PC (later dubbed IBM CP
437), or IBM CP 850, or whichever of the literally hundreds of
character sets IBM documented as being in use on its systems, or the
one used by DECs running VMS, or a transliteration system invented by
the user because the system character set turned out not to support
Icelandic characters. Since the character encoding goes without
saying, it is not surprising to find that messages from such systems
frequently fail to document the character encoding.</p>

<p>Eine Ausfallart, die in der Vergangenheit den
geisteswissenschaftlichen Projekten gro&ss;e Schwierigkeiten bereitet
hat, ist die M&oe;glichkeit, da&ss; der Sender und der Empf&ae;nger 
verschieden Zeichens&ae;tze benutzen.  Eben weil der Zeichensatz
von so grundlegender Bedeutung f&ue;r die Textdatenverarbeitung ist,
und von allen Teilsystemen unterst&ue;tzt werden mu&ss;, wird
die Wahl des Systemzeichensatzes vielen Benutzern v&oe;llig 
unsichtbar.  Stillschweigend setzen alle Softwares im System
den gleichen Zeichensatz voraus.  Wer nicht gegen diesen
Systemzeichensatz wegen seiner Unvollst&ae;ndigkeit st&ae;ndig
k&ae;mpfen mu&ss;, fragt sich gar nicht, wie der Zeichensatz des
Systems &ue;berhaupt hei&ss;t, bis es beim Datenaustausch mit einem
fremden System zu einer Panne kommt.</p>
<p>
Hier hat die Entwicklung vom Universalzeichensatz unheimlich viel
geholfen.  Auch wenn man auf die Private Use Area zur&ue;ckgreifen
mu&ss;, um Sonderzeichen zu kodieren, hat man mit dem Universalsatz
einen gemeinsamen Anhaltspunkt.</p>
 
<p lang="en">The development of the Universal Character Set used by ISO 10646
and by the Unicode Consortium is a large step forward in this
connection, because the inclusiveness of the character set ensures
that for many or most users, all of the characters they will need are
present in the character set, so that it becomes unnecessary to switch
between coded character sets, to extend them, to invent new coded
character sets, or to use specialized transliteration schemes.  XML's
use of Unicode as the underlying character repertoire means that XML
data can always use Unicode &mdash; every conforming XML processor is
required to understand both UTF-8 and UTF-16 &mdash; which helps avoid this
failure point.</p>
 
<p lang="en">As always, however, there is a downside. Precisely because Unicode
covers so many needs out of the box, it may make life even harder for
you when you do need to extend it. When you need a character not
included in the current version of Unicode, you will not have to look
long or far to find people to tell you that you don't really need that
character, because Unicode is universal: if Unicode does not have the
character you need, it must not really exist. Others will tell you to
file an application to the Unicode Technical Committee asking them to
add the character in question, and await their answer.  In a year or
two, or perhaps in a few months if things go swiftly, it will be added
and you can use it normally. In the meantime, they will tell you, you
should wait. This may be inconvenient if you were in the middle of
transcribing an important older manuscript with an unusual character
in it, or if you were trying to get out the technical documentation
for a new product due to ship in a few weeks.</p>
 
<p lang="en">In reality, while a finite, fixed set of characters can suffice to
enumerate all the characters used in standard or widely used
non-standard writing systems for known languages, it is not feasible
to make a fixed, finite list incuding every character ever used or
ever to be used in human writing.  Some scribes or authors invent
private symbols of their own; they behave like characters and it is
inconvenient not to treat them as such, but if they appear only in an
unpublished manuscript of C. S. Peirce or Wilhelm Schlegel and have
never seen the light of day in a published book, it is hard to believe
they really belong in a Universal Character Set. The correct way to
handle those characters, if they really are characters and you cannot
wait for the ISO/IEC JTC 1 SC 2 and the Unicode Technical Committee to
add them to the Universal Character Set, or do not belong there, is to
use the Private Use Area of Unicode, or some other appropriate
extension mechanism, to represent them. This involves a certain amount
of work: you have to teach all of your software about them, if that
software knows about characters in the first place. And a certain
amount of Unicode-aware software is wholly unprepared for the notion
that anyone might actually need to use the Private Use Area (as are
many Unicode experts, who will controvert what we say here). But more
important for the topic of this paper you have to document your use of
the Private Use Area carefully and thoroughly. Your goal should be to
document your private usage as completely and well as the ISO 10646
and Unicode standards document the characters in the UCS. And you will
need to make sure that the recipients of your messages can find the
documentation. Success here may be very elusive, but you can improve
the chances by having multiple copies of your character-set
documentation (at the cost of introducing redundancy in your system &mdash;
so make sure you and everyone else involved knows which one is the
master copy and how to automate the process of replicating any updates
to all of the duplicate copies), by linking to your character-set
documentation from the documents that use your extensions (remembering
that linking systems may change and the servers you now use may have
been decommissioned when the recipient reads your message), and by
inlining at least some of the essential documentation in the documents
that need it.</p>
 
<p lang="en">Once the character encoding is understood by the receiver, the
difficult work of understanding the data format can start. There are
no limits save those of human ingenuity on the rules that can apply to
data formats used on computers, and human ingenuity has been exercised
energetically in the invention of formats.</p>

<p>Wenn der Empf&ae;nger einmal die Zeichenkodierung verstanden hat,
beginnt die schwierige Arbeit, das Datenformat zu verstehen.  Es 
sind dem menschlichen Geist beim Erstellen von Datenformaten 
praktisch keine Grenzen gesetzt, und der menschliche Geist hat
sich dankbar auf diesem Gebiet energisch und reichlich entfaltet.</p>

<p lang="en">In sending messages to the future, you have three broad classes of
formats to consider.</p>

<list><item lang="en">You can use a proprietary format.</item>
<item lang="en">You can devise your own format to suit your data.</item>
<item lang="en">You can use a publicly documented non-proprietary format.</item>
</list>

<p lang="de">Wer eine Botschaft an die Zukunft senden will, hat
drei Arten von Datenformatten zu erw&ae;gen:</p>

<list><item>propriet&ae;re (geschlossene) Formate</item>
<item>eigene, selbstdefinierte Formatte, den eigenen Daten und
dem eigenen Bedarf nach Belieben angepast</item>
<item>&oe;ffentlich zug&ae;ngliche, &oe;ffentlich dokumentierte
Formatte</item>
</list>

<p lang="en">Proprietary formats are convenient when the commercial software
supporting it is or will be available to both sender and receiver.
They are often used for exchange of data across organizational and
geographic boundaries. For data exchange with the future, however, the
sometimes short lifetime of proprietary formats tells heavily against
them. Neither of the authors have ever found a commercial backup
program for personal computers which could read backups made by
previous versions of the same program. And while commercial word
processors frequently have the capability of importing files written
in the format of the previous version of the program, they do not
always handle earlier formats, so that if you skip a version you risk
not being able to read your existing documents.</p>
<p>Propriet&ae;re Formate bieten sich an und sind sehr bequem, solange
die dazugeh&oe;rige Software weit verbreitet ist und sowohl dem Sender
wie auch dem Empf&ae;nger zug&ae;nglich ist.  F&ue;r den Datenaustauch &ue;ber
geographischen und organisatorischen Grenzen hinweg werden propriet&ae;re
Formate oft mit Erfolg eingesetzt.  Aber das meist recht kurze
Leben solcher Formate macht sie f&ue;r eine Botschaft an die
Zukunft eher untauglich.</p>

<p lang="en">For sending messages to the future, this makes proprietary formats
very unwise.</p>

<p lang="en">Self-designed formats are always tempting, since they can easily be
fitted to the specifics of the data to make them compact and
convenient. But unless you are prepared to document them well enough
to allow the receiver of the data to construct software to read the
format, they can be very dangerous. Fewer than thirty years had passed
when the scientific data from NASA's Viking Mars lander (launched
1975, landed 1976) were re-examined to see if after all they indicated
signs of life on Mars. But the tape format was undocumented (or
possibly the documentation existed but was not found by those who
needed it), the programmers responsible for it had left NASA, and in
the end the data were rekeyed from paper printouts instead of being
read from tapes.</p>
<p>Selbstgemachte Formate sind oft eine gute Wahl, weil sie so gut
der Eigenart der Daten und den Bed&ue;rfnissen des Senders angepa&ss;t
werden k&oe;nnen.  Aber wer ein solches Eigenformat definiert, mu&ss;
damit rechnen, da&ss; er das Format auch gr&ue;ndlich dokumentieren mu&ss;.
Denn ohne Dokumentation wird der Empf&ae;nger wenig mit den Daten anzufangen wissen.
Es waren keine drei&ss;ig Jahre seit der Marslandung von Viking (1975
gelauncht, 1976 gelandet), als man die Me&ss;daten des Landers 
durchsuchen wollte, um m&oe;gliche Zeichen von Leben auf Mars zu finden.
Das Magnetbandformat aber, in dem die Daten elektronisch erhalten sind,
wurde leider nie dokumentiert, bzw. es wurde die Dokumentation nicht
gefunden, und alle Daten wurden neu von Papierausdrucken mit der Hand
eingegeben.
</p>

<p lang="en">Open formats like XML thus appear to be the best bet for a message
to the future: the format is publicly documented in many places, so
knowledge of it is unlikely to disappear entirely; it is highly
redundant, which helps make it resistant to minor data corruption and
lost bits; and if XML goes so thoroughly out of fashion that the
future receiver of the data cannot find any off-the-shelf XML parsers,
the format is still simple enough to make it easy to construct a
parser for it. In what follows, we will assume that messages to the
future are to be sent in XML form.</p>

<p>F&ue;r eine Botschaft an die Zukunft scheinen aus solchen Gr&ue;nden 
sich die offene Formate wie XML besonders gut (oder wenigstens
weniger schlecht) zu eignen.  Solche Formate sind gut dokumentiert,
die Dokumentation l&ae;&ss;t sich ohne gro&ss;e M&ue;he finden (wenigstens
heute - wir wollen hoffen, das sei auch in Zukunft der Fall), und
es scheint unwahrscheinlich, da&ss; das Wissen um XML und andere 
offene Formate jemals g&ae;nzlich aus der Welt verschwindet.  Das
XMLformat weist viel Redundanz auf, so da&ss; es Datenverfall
verh&ae;ltnism&ae;&ss;ig gut widersteht &mdash; wenigstens wird es weniger Wahrscheinlich,
da&ss; die Daten korrumpiert werden, ohne da&ss; man es merkt.
Auch wenn XML so aus der Mode fiele, da&ss;
es keine XML-softwares mehr g&ae;be, ist das Format im Grunde
so einfach, da&ss; man selbst einen Parser daf&ue;r schreiben k&oe;nnte,
um die Umformatierung in ein neues Format zu erleichtern. 
</p>

<p lang="en">In sum: failures of channel and code each have well understood
workable solutions, for anyone willing to use them. Lack of clarity
about what information you really wish to transmit, or lack of clarity
about its larger implications, are unavoidable in some cases. But
failures of channel and code can be avoided with high reliability by
the disciplined replacement of media and the disciplined use of well
documented public data formats.</p>
<p>Zusammenfassend kann man sagen, da&ss; gegen Ausf&ae;lle beim Kontakt
und beim Code es brauchbare technische Mittel gibt, wenn man diese Mittel
konsequent und diszipliniert einsetzt.  Probleme beim Sender
unde beim Empf&ae;nger dagegen, verlangen nicht technische sondern
institutionelle L&oe;sungen.</p>

</div>
 
<div> <head> Ausfall in der Semantik </head>

<p lang="en">The final locus of failure is perhaps more challenging.</p>
<p>Die letzte Ausfallart ist die der Semantik.</p>

<p lang="en">Communication can fail spectacularly even if the sender wants to
talk, the receiver wants to listen, and the message is transmitted
over a satisfactory channel in a code common to sender and
receiver. Three distinct failure modes may be associated with the
referent of the message, all involving problems grasping the meaning
of the message.</p>
<p>Die Kommunikation kann selbst dann spektakul&ae;r versagen, 
wenn der Sender etwas mitteilen will, der Empf&ae;nger zuh&oe;ren will, und
die in dem gemeinsamen Code verfa&ss;te Mitteilung erfolgreich
beim Empf&ae;nger ankommt.
Drei verschiedene Ausfallarten gibt es hier, die alle mit der
Erfassung der Bedeutung der Botschaft zu tun haben.</p>

<p lang="en">The first appears to be hopeless: the receiver may receive, decode,
and understand the message only to discover that it conveys no
information the receiver finds interesting or useful. The receiver, it
may be, was interested in lightning; the message, when deciphered,
proved to contain data about lightning bugs. Close, but not close
enough. There is little one can do to prevent this failure mode,
except to try to ensure that the actual topic of the message is made
clear with as little work from the receiver as feasible.</p>
<p>Die erste Ausfallart scheint ein hoffnungsloser Fall zu sein.
Der Empf&ae;nger empf&ae;ngt, entschl&ue;sselt, und versteht die Botschaft,
und entdeckt dann erst, da&ss; die Botschaft f&ue;r den Empf&ae;nger weder
interessant noch n&ue;tzlich ist.  Der Empf&ae;nger will vielleicht etwas
&ue;ber die Weissagung in der Antike erfahren, und schaut sich
die Daten an, weil sie angeblich u.a. auch von Orakeln handeln.
Er findet darin aber nur Information zu einem gewissen Datenbanksystem,
das ihn leider nicht interessiert.  Ganz verhindern kann man wohl
diese Art des Ausfalls nicht, aber wir k&oe;nnen und sollen es dem
Empf&ae;nger so leicht wie m&oe;glich machen, zu sehen, welches Oracle wir
eigentlich meinen.</p>

<p lang="en">The second failure mode occurs when the recipient succeeds in
decoding the message, correctly parsing the data values, and
associating them successfully with the appropriate objects in the
application domain, but nevertheless fails to grasp the full import of
the message. This failure mode, too, is almost completely out of the
sender's control. Failure to grasp the full import of a communication
is in some sense not so much a failure of communication as it is just
a fact of life. Do the monthly sales figures in this XML database show
that a particular product line has reached the end of its useful life
and should be phased out? Or do they reflect regular seasonal
variation? Or trends in the national economy? It would certainly be
good to know, but the problem is related more to the understanding of
science and cognition than to that of communication or data
preservation.</p>
<p>Die zweite Ausfallart besteht darin, da&ss; der Empf&ae;nger die
Botschaft erfolgreich entziffert, alle Daten richtig den 
betreffenden Objekten in der Anwendungsdom&ae;ne zuweist, 
begreift die volle Bedeutung der Botschaft aber nicht.
Dagegen ist auch kein Kraut gewachsen:  da&ss; man gelegentlich
die volle Bedeutung einer Tatsachenmenge nicht begreift,
geh&oe;rt weniger zu der Problematik der Kommunikation, als
zu der Problematik des Lebens.
</p>

<p lang="en">The third failure mode related to the referent consists in the
receiver of the message failing to understand what information the
elements and attributes of the XML document are to convey. This is
perhaps the most widespread and difficult problem in the interchange
of XML documents today, but it is avoidable, at least in part, but the
methods for doing so are less routine than those for avoiding the
other pitfalls we have identified. They are discussed in the next
section.</p>
<p>Die dritte semantische Ausfallart ist ganz einfach.  Man bekommt
ein XMLdokument, versteht also m&ue;helos die Elementstruktur der
Daten, kennt aber die vorliegende Auszeichnungssprache nicht,
versteht also nicht, welche Bedeutung den Elementen und Attributen
des Dokuments zuzuweisen ist.  Diese Ausfallart d&ue;rfte eine der
am &oe;ftesten auftretenden sein, wenn es um den Austausch von
XMLdokumenten geht.  Sie kann wenigsteins teilweise vermieden werden, 
aber nicht ohne Arbeit.
</p>
<p>Zu diesem Thema gibt es viel zu sagen &mdash; zuviel, vielleicht, denn
ich vermute, der Empfang ist inzwischen doch fertig vorbereitet,
und Sie haben vielleicht schon Durst.  Ich versuche mich also kurz
zu fassen.</p>


</div>
</div>
 
<div> 
<head>Nachhaltige Semantik</head>

<p lang="en">Many of the points of failure described so far have reasonably well
understood, almost mechanical solutions, or else are currently well
beyond any reliable solution (there is, for example, no systematic
method to ensure that the future receiver of your data will
beinterested in it). The preservation of semantics is less well
understood and involves human understanding and intelligent human
intervention at virtually every stage. This may be unavoidable: the
term <term>semantics</term> tends to be used only for things we do not know
how to manage formally or mechanically; as we learn to deal with
particular problems by automatic means, they often disappear as topics
from discussions of semantics and move into discussions of syntax or
other concepts carefully distinguished from semantics.</p>

<p lang="en">A great deal of current research and development work is focused on
improving our grasp of the semantics of data, sometimes by trying to
make them machine-processable and sometimes by encouraging better
human-readable documentation. Some progress has been made &mdash; different
people, including the two present authors, have different estimates of
just how much progress - - but the state of the art is currently far
from making what we now call the meaning of markup completely (or even
in significant part) machine-processable for current applications of
markup languages. For the foreseeable future, the careful drafting of
human-readable documentation remains indispensable.</p>

<p lang="en"> Worrying about documenting markup vocabularies for XML data may
strike some as unnecessary or frivolous. Do we not hear frequently
that <seg type="caps">XML</seg>> is "self-documenting"? Surely if
it's self-documenting, the provision of external documentation is a
waste of time, a form of gilding the lily. The logic is impeccable,
but the premise is false: XML is not self-documenting in any serious
sense of the term. It is true that XML's relatively high redundancy
and its use of explicit delimiters for all elements and all markup
(start-tags, end-tags, attribute values, comments, and declarations)
mean that the XML data stream indicates explicitly the beginning and
ending of each element and attribute value, without requiring anything
that a specialist in formal language would regard as meriting the term
<term>parsing</term>. But the delimiters are explicit and clear only to a
reader (human or machine) instructed in the rules laid down in the XML
specification. It is only from documentation that we learn clearly the
agreed upon structure of the information and the usage and meaning of
all elements and attributes.</p>

<p lang="en">Given the need for human intelligence to be applied, it's difficult
to provide mechanically checkable or enforceable rules for the
preservation of semantics. But some general advice can be given, and
the reader can be pointed to current work that suggests trends for the
future. What follows are our advice on good practice for
future-proofing your data by preserving the semantics of your markup
and your data.</p>

<p>Die eigene Auszeichnungssprach dem Empf&ae;nger verst&ae;ndlich zu machen,
erfordert eine gewisse menschliche Intelligenz, und es ist schwierig,
daf&ue;r ein Regelwerk zu erstellen, das objektiv oder intersubjektiv
nachpr&ue;fbar w&ae;re, und das uns den Erfolg garantieren w&ue;rde.
Einige allgemeine Ratschl&ae;ge kann man allerdings geben.</p>

<p lang="en"><seg type="rule">Rule 1: think about what you wish to say.</seg></p>
<p><seg type="rule">Regel 1: Man denke dar&ue;ber systematisch nach, was man
sagen will.</seg></p>
<p>Man braucht nicht unbedingt, eine formale Ontologie mit Definitionen
in der Web Ontology Language (OWL) oder mit Topics in Topic-map-format 
zu formulieren, aber es lohnt sich zu fragen:  wor&ue;ber, &ue;ber welche
Arten von Wesen, wollen wir Aussagen machen?  W&oe;rter? Sprachen?
Texten? Werken? Belegstellen?  Wenn man eine formal definierte Ontologie erstellen 
w&ue;rde, was f&ue;r Dinge w&ue;rde man voraussetzen? Welche Eigenschaften
w&ue;rde man ihnen zuweisen?  Zu den Methoden f&ue;r solche systematische
&Uuml;berlegungen gibt es eine kleine, weit verstreute Literatur, die die
Modellierung und die Erstellung von Auszeichnungssprachen behandelt.
Ich empfehle allen u.a. das Buch von Eve Maler und Jeanne El Andaloussi,
<title>Developing SGML DTDs: From Text to model to markup</title>.</p>


<p lang="en"> The crucial first step is to think about the information to be
captured in the message and make explicit decisions about the
information structure, the properties of each thing (entity, in
philosophical jargon), and how the things interrelate. In the case
where the vocabulary is intended to capture the relevant semantics of
an existing set of documents or messages, this involves a careful
analysis of existing documents. In other cases, where there is no
existing data, it will involve careful application design with active
participation from the users of the system and domain
experts. Techniques for document analysis and joint application design
are well known, although not universally practiced. (Perhaps the best
and fullest published account, not outdated in essentials by the
development of XML, is still Maler and El Andaloussi [<xref
href="maler-elandaloussi-1996">Maler/ElAndaloussi 1996</xref>].) </p>

<p lang="en">There are many ways to achieve clarity; one that often works very
well is to ask explicitly which objects exist in the application
domain and what their salient properties are, or at least which
objects and properties are relevant for understanding the messages to
be constructed. Consensus on the answers to these questions is not
always possible, but it is always worthwhile if it can be achieved. An
explicit list of the objects and properties involved in a particular
idealization of the application domain makes it dramatically easier to
describe (on the part of the sender) and understand (on the part of
the receiver) a set of messages which reflect that idealization. (We
intentionally omit processes from this list of basic notions, since
thinking about meaning in terms of processes to be performed presents
the average sender with a strong temptation to devise an imperative
rather than a declarative semantics for messages. Imperative semantics
are much less likely to allow reuse of the data. The development of
SGML and XML were driven in part by the need for a notation to which a
purely declarative semantics could be ascribed, precisely because
declarative semantics are more effective for ensuring the reusability
and long life of data.)</p>

<p lang="en">It is not obvious that all meaning can be reduced successfully to
assertions about the properties of specific objects or classes of
objects. But if there is meaning which cannot be captured this way,
then it also eludes treatment in formal logic, for first order
predicate calculus postulates individuals and allows us to express
propositions regarding their existence, non-existence, and
properties. An object-and-property model may be incomplete, but like
symbolic logic it covers enough ground to be useful. If we know what
objects our messages are to be about and what properties our messages
will ascribe to them, then we have a chance of being able to be
confident that our messages say what we mean. And it will be feasible
to describe that meaning clearly, both in prose and at least in part
by symbolic means, in first-order predicate calculus or in Prolog or
in the notation of the Resource Description Framework (RDF) either
using only terms of our own devising or using terms introduced by
lanuages like the Web Ontology Language (OWL).</p>

<p lang="en">Equally important, clarity about the meanings to be conveyed makes
it much easier to develop a clear and useful markup vocabulary in
which to convey them.</p>

<p lang="en">Which brings us to the second rule: </p>

<p lang="en"><seg type="rule">Rule 2: design the vocabulary carefully, with a view
to making document instances easy to understand.</seg></p>

<p lang="de"><seg type="rule">Regel 2: die Auszeichnungssprache sorgf&ae;ltig
entwerfen, mit dem Ziel, da&ss; die Einzeldokumente, die mit dieser Sprache
ausgezeichnet werden, so gemeinverst&ae;ndlich wie nur m&oe;glich sein sollen.</seg></p>
<p>Rein mechanisch produzierten Auszeichnungssprachen k&oe;nnen
beliebig schwerverst&ae;ndlich werden.</p>

<p lang="en">Many people have observed that some XML vocabularies produce
documents that are easy to read and understand correctly, while others
are hard to decipher and thus error-prone both when documents are
created and when software is developed to process them. There is no
satisfactory mechanical rule for telling the difference between them;
the best accounts of the difference now available stress the use of
well chosen natural-language words or phrases to name elements and
attributes [<xref href="maler-elandaloussi-1996">Maler/El Andaloussi
1996</xref>, p. 246; <xref href="wrightson-2005">Wrightson 2005</xref>]. When
elements and attributes have well chosen natural-language names, human
readers can, if they are speakers of the natural language in question,
use their language skills to interpret the markup in roughly the same
way that they use it to interpret prose sentences. This explains why
there is no mechanical rule for distinguishing well chosen names from
ill chosen names; until we have mechanical devices for understanding
unrestricted natural-language utterances, we cannot have such a rule.
Choose the names carefully.  Use them to give clues to help your
receiver correctly identify the universe of discourse or context
within which to understand the message. In the context of a
bibliographic reference, a name like <ident>date</ident> may obviously refer
to the date of publication (since that is the date most carefully
provided in standard bibliographic citation practice). In the context
of a matchmaking system, <ident>date</ident> may refer to a calendar date or
to a social outing involving people who are or may become romantically
attracted to each other.</p>

<p lang="en"><seg type="rule">Rule 3: document the vocabulary and your usage.</seg></p>

<p lang="de"><seg type="rule">Regel 3: die Auszeichnungssprache,
und Ihren Gebrauch dieser Sprache, dokumentieren!</seg></p>
<p>Gro&ss;e Bibliotheke haben oft ein Hauptexemplar des 
bibliothekarischen Regelwerks, nach dem sie B&ue;cher katalogisieren.
Dieses Hauptexemplar wird oft mit unbeschriebenem Papier durchschossen,
damit die lokal adoptierten Zusatzregeln, die lokale Auslegung
schwieriger F&ae;lle, usw. festgehalten werden k&oe;nnen.  Manche
geisteswissenschaftliche Projekte pflegen auch eine solche
lokale Erweiterung ihres Regelwerks.  Bei einer allgemein gehaltenen
Auszeichnungssprache wie den Richtlinien der TEI sind solche
lokale Erweiterungen durchaus notwending, und m&ue;ssen dokumentiert
werden, wenn die Daten dem Empf&ae;nger verst&ae;ndlich sein sollen.
</p>

<!--

<p lang="en">Third, document your vocabulary and its meaning carefully and
thoroughly. At the very least, provide general high-level
documentation explaining it. For material that you care about, you
should definitely also provide detailed documentation describing the
syntax and meaning of each element and attribute. Existing public
vocabularies offer many examples of such detailed documentation, some
of them worthy of emulation, some worthy of careful study as examples
of what can go wrong with documentation. Choose models you admire and
emulate them. Most consulting practices which help design markup
vocabularies have meta-vocabularies used for documenting their work
product; relatively few of these vocabularies are public (and some
which are prove ironically not to be very well documented). The Text
Encoding Initiative has published a vocabulary for such descriptions
(the Tag Set Description), which is worth using or at least examining
and modifying.< ! - - * need reference to TEI TSD documentation  * - - > All of
the normal rules of documentation apply when documenting markup
vocabularies. Different readers will come to the documentation with
different backgrounds and expectations, so it's useful to provide
information in different forms. Graphic representations are clear for
some readers in ways that prose descriptions or content models and
regular expressions never are. Examples help.</p>

<p lang="en">If you are using a publicly defined vocabulary, of course, some or
all of this documentation will be provided by those who specified the
vocabulary in the first place. If it wasn't, you may wish to think
twice about whether to use the vocabulary (or you may wish to use it
and provide your own documentation).</p>

<p lang="en">Users of publicly defined vocabularies invariably encounter cases
where the proper usage of the vocabulary is not clear from the public
documentation, or where the public vocabulary offers the user several
options. Should this particular case be tagged as a date or as a date
range? As a technical term, or as a foreign word, or just as italics?
If you care about consistency within your data, you would do well to
pay attention to such questions. It is wise to emulate a practice
found in many libraries: if the library does any substantial amount of
original cataloguing, the cataloguing department will almost always
have an annotated copy of the cataloguing rules with local
interpretations and rulings recorded for the instruction of new
cataloguers joining the staff. In some cases, the cataloguing rules
are rebound with blank pages between every two pages of the original,
so that there is ample room for explanations and notes. Similarly,
projects and institutions which care about consistency in the marked
up data they produce sometimes maintain an annotated copy of the
documentation of the public vocabulary, in which questions of usage
which have come up are recorded, together with the answers agreed
upon. Any local rules about markup practice, or the scope of certain
elements, can be recorded there, too. </p>

<p lang="en">For the receiver of your messages, such local usage notes are an
extremely important supplement to the public documentation. Help them!
Make sure that the regularities of your local practice are recorded,
and that the documentation is sent to the future in the same bottle as
the messages it describes. This is particularly important for
semantically regular usages not documented in the general public
documentation for the vocabulary. If your local usage stretches,
shifts, restricts, or otherwise adjusts the meaning of any markup
constructs, you must document your local usage if you wish your data
to be correctly understood by its receiver. This is necessary even
when you expect the receiver to be yourself, or your own organization,
in the future: as the example of the Viking data from Mars
illustrates, individuals and organizations can forget the details of
their local usage if it's not written down.</p>

<p lang="en">So far, we've been talking about prose documentation, in natural
language, for the documentation of your vocabulary and your local
usage. Prose has the advantage of being readily accessible to most
humans who can read the language it's written in. Well written prose
will be more successful, badly written prose less successful, in
conveying meaning, just as attentive readers will be more and lazy
readers less successful in gleaning it. But prose also has the
disadvantages of natural language. Without great care, it's easy to
write prose which looks and is clear and unambiguous to the authors
and those who share the author's background assumptions, but opaque or
ambiguous to those with a different set of assumptions. And when
strenuous efforts are made to ensure that the prose is unambiguous and
rigorous, the result is often nearly unreadable. Legal prose and
technical specifications provide too many well known examples for it
to be worth belaboring the point.</p>

 n.b. the following graf commented out by accident.

<p>Die Bedeutung von Elementtypen und Attributen in der Auszeichnungssprache
kann man nicht nur mit Prosa in einer nat&ue;rlichen Sprache festhalten,
sondern es k&oe;nnen auch formale Sprachen wie OWL, das Pr&ae;dikatenkalk&ue;l,
Prolog, und dergl. mehr hier sehr hilfreich sein.  Es ist zu empfehlen,
da&ss; beim Gebrauch solcher Formalismen zweisprachig gearbeitet wird:
denn die Darstellung in einer nat&ue;rlichen Sprache und die Darstellung
in einer k&ue;nstlichen Formalsprache erg&ae;nzen und erkl&ae;ren sich
gegenseitig.  (Es sei denn, sie widersprechen sich.  Seien Sie
vorsichtig!)</p>

<p lang="en">Vagueness and ambiguity in documentation can be controlled by
expressing things in two or more languages. Some polyglot standards
development organizations develop specifications in French and English
simultaneously; the task of formulating things in both languages helps
to uncover ambiguities and misunderstandings while drafting, as well
as providing a useful check of understanding for the bilingual
reader.</p>

<p lang="en">More common, perhaps, is to write documentation simultaneously both
in a natural language and in a formal language. In literate
programming, the document consists both of natural-language prose and
source code in one or more programming languages. In formal
specifications using Z and many other specification languages, the
specification consists of prose with interspersed expressions in the
formal notation. Guides to good practice often warn against producing
monolingual documents: without the formal notation, the
natural-language prose is apt to harbor undetected obscurities and
ambiguities, and without the natural language discussion the formal
notation is apt to be unclear and indigestible, with the result that
it is not read and checked as thoroughly as it ought to be.</p>

<p lang="en">The bilingual approach can be applied readily to documenting the
semantics of markup: the reference material for each markup construct
can include not only natural language descriptions but also
descriptions in formal languages. Current documentation systems
frequently include the formal syntactic declaration for the element or
attribute, in one or more schema notations. They can just as easily
include a formal description of the semantics of the construct in the
formal language of your choice.</p>

      <p lang="en"> xxx In principle, a semantic account of the information in a message
might describe the meaning in many different ways. In practice,
current proposals seem to amount to methods of translating the message
into another notation or vocabulary which is felt or alleged to be
semantically well grounded, or at least semantically unproblematic
because assumed to be well understood.</p>
      
<p lang="de">Im Prinzip k&ouml;nnte die semantische Beschreibung der Information in einer Nachricht die Bedeutung auf verschiedene Arten beschreiben.
In der Praxis scheinen die gegenw&auml;rtigen Vorschl&auml;ge  auf Methoden hinaus zu laufen, die Nachricht in eine andere Notation oder
ein anderes Vokabular zu &uuml;bersetzen, welche als semantisch fundiert aufgefa&ss;t wird (oder dem dies unterstellt wird), oder zumindest als semantisch
unproblematisch, weil es als gut verstanden angesehen ist.</p>

<p lang="en">Several proposals have been made for this kind of translation. The
<term>architectural forms</term> of HyTime were the earliest proposal widely
disseminated in the markup community. A set of architectural forms is
a bit like a vocabulary module: a set of elements and attributes
intended to be used together, but perhaps with different names. The
semantics in question are documented in prose, in the usual way, and
an <term>architectural DTD</term> makes explicit the syntactic relations
expected to hold among the elements and attributes. When an SGML or
XML vocabulary uses architectural forms, each element or attribute in
the vocabulary may (but need not be) mapped to an element or attribute
in the architectural DTD. The original document may be projected into
the architectural DTD by renaming the appropriate elements and
attributes and suppressing (some) others, if the data conform to the
architecture (syntactically, this means that the projection of the
document into the architecture's vocabulary is valid against the
architectural DTD).</p>
<p lang="de">Verschiedene Vorschl&auml;ge sind gemacht worden f&uuml;r diese Art von &Uuml;bersetzung. Die HyTime
<term>architektonischen Formen</term> fanden als erster Vorschlag weite Verbreitung in der Markup Community. Eine Menge von
architektonischen Formen ist ein bi&szlig;chen wie ein Vokabularmodul: eine Menge von Elementen und Attributen mit dem Zweck, gemeinsam
benuzt zu werden, aber m&ouml;glicherweise mit verschiedenen Namen. Die fragliche Semantik wird dokumentiert in Prosaform, auf die normale Weise,
und  eine <term>architektonische DTD</term> macht die syntaktischen Relationen zwischen Elementen und Attributen explizit. Wenn ein SGML oder
XML Vokabular eine architektonische Form benutzt, kann (aber mu&ss; nicht) jedes Element oder Attribut auf ein Element oder Attribut in der architektonischen DTD 
abgebildet werden. Das Originaldokument kann auf die architektonische DTD mittels der Umbenennung der entsprechenden 
Elemente und Attribute projeziert werden, oder durch die Unterdr&uuml;ckung anderer. Dies ist m&ouml;glich wenn die Daten konform zur Architektur sind
(das bedeutet, da&szlig; die Projektion des Dokuments in das Vokabular der Architektur valide gegen&uuml;ber der architektonischen DTD ist).</p>

<p lang="en">Architectural forms work by establishing a one-to-one or
many-to-one relation between markup constructs in the vocabulary being
documented and the architecture. When a vocabulary uses an
architecture, the relevant parts of the vocabulary must be
structurally similar to the corresponding parts of the
architecture.</p>
      
      <p lang="de">Architektonische Formen funktionieren durch die Etablierung einer 1:1 oder vielen-zu-eins Beziehung zwischen Markup-Konstrukten in einem
      dokumentierten Vokabular und in der Architektur. Wenn ein Vokabular die Architektur verwendet, m&uuml;ssen die releveanten Teile strukturell &auml;hnlich
      sein zu den korrespondierenden Teilen der Architektur.</p>

<p lang="en">Other proposals similarly focus on specifying one-to-one mappings
from elements and attributes in a vocabulary being documented into
some vocabulary of semantic primitives. The Schema Adjunct Framework
developed by TIBCO Software a few years ago is an example [<xref
href="#saf-2000">Vorthmann/Robie/Buck 2000</xref>, <xref
href="#vorthmann-robie-2001">Vorthmann/Robie 2001</xref>]. The target
vocabulary is not specified by SAF, which is designed instead to be
usable for translation into arbitrary vocabularies.</p>
      
<p lang="de">Andere Vorschl&auml;ge fokussieren auf &auml;hnliche Weise die Spezifikation einer 1:1 Abbildung von Elementen und Attributen
eines Vokabulars, die in einem Vokabular mit semantische Primitiven dokumentiert wird. Das vor einigen Jahren von TIBCO Software entwickelte 
Schema Adjunct Framework ist ein Beispiel [<xref
      href="#saf-2000">Vorthmann/Robie/Buck 2000</xref>, <xref
            href="#vorthmann-robie-2001">Vorthmann/Robie 2001</xref>] hierf&uuml;r. Das Zielvokabular ist nicht mittels SAF spezifiziert, welches stattdessen
zur &Uuml;bersetzung in arbitr&auml;re Vokabulare konzipiert ist.</p>

<p lang="en">The problem with one-to-one mappings is that quite often the
information conveyed by the markup is best represented abstractly as
an instance of an <ident>n</ident>-ary relation (e.g. a predicate with several
arguments). A one-to-one mapping does not by itself make clear what
items go together in the same instance of the relation. It is useful,
surely, to know that the 'date' element in the XML vocabulary maps to
the 'date_of_sale' column in a particular relational database. It is,
however, even more useful to know which table the column is in. And
when there are several 'date', 'price', 'quantity', 'product-id' and
'customer-id' elements or attributes in a document instance, it is not
only useful but fairly important to know which of the values go
together in the same row of the table, and which don't go together. A
mapping which specifies only "date maps to date_of_sale" lacks that
information.</p>
      
<p lang="de">Das Problem mit einer 1:1 Abbildung ist da&szlig; sehr oft die durch das Markup vermittelte Information auf abstrakte Weise am 
besten als eine <ident>n</ident>-stellige Relation (z.B. ein Pr&auml;dikat mit mehreren Argumenten) dargestellt wird. Eine
1:1 Abbildung allein macht nicht explizit welche Einheiten zusammengeh&ouml;rig sind in einer Instanz der Relation. Es ist sicherlich n&uuml;tzlich
zu wissen da&szlig; ein 'date' Element in einem XML Vokabular abgebildet werden kann auf eine 'date_of_sale' Spalte in einer bestimmten relationen
Datenbank. Es ist allerdings noch n&uuml;tzlicher zu wissen in welcher Tabelle die Spalte ist. Und wenn es mehrere 'date', 'price', 'quantity', 'product-id' und
'customer-id' Elemente sowie Attribute in einer Dokumentinstanz gibt, ist es nicht nur n&uuml;tzlich sondern auch sehr wichtig zu wissen welche Werte
zusammengeh&ouml;hren in welcher Reihe der Tabelle, und welche nicht. Einer Abbildung, welche nur "date wird abgebildet auf date_of_sale" spezifiziert,
fehlt diese Information.</p>      
 

<p lang="en"> The assumption of a one to one mapping specified only at the
atomic level makes many of the proposals we know for semantic mapping
cumbersome and fragile. The problem is analogous to the error
sometimes made by those learning a foreign language and treating
individual words in the target language as equivalent in a one-to-one
way with words in their native language. Word for word translations
tend to be stilted at best, and can be seriously misleading. In
foreign-language pedagogy, one solution is to insist that the basic
unit of translation be not the word but the utterance. The analogous
rule for documenting the meaning of markup vocabularies is to treat
not the individual construct but the cluster as the unit of
documentation, letting a cluster be whatever larger construct or
combination of constructs is necessary to constitute a (relatively)
complete utterance. In some cases, the cluster will be whatever is
needed to create a complete expression in the target
notation. Existing published proposals have used Prolog [<xref
href="#sperberg-mcqueen-miller-2004">Sperberg-McQueen/Miller 2004</xref>,
<xref href="#hrsm-2000">Sperberg-McQueen/Huitfeldt/Renear 2000</xref>],
first-order predicate calculus [<xref href="#ioai">Sperberg-McQueen
2006</xref>], (declarative) sentences in English [<xref
href="#marcoux-2006">Marcoux 2006</xref>], and RDF [<xref
href="#sperberg-mcqueen-miller-2004">Sperberg-McQueen/Miller 2004</xref>,
<xref href="#grddl">Haza&euml;l-Massieux/Connolly 2005</xref>] as target
notations.</p>
      
<p lang="de">Die Annahme einer nur auf atomarer Ebene spezifizierten 1:1 Abbildung macht viele der uns bekannten Ans&auml;tze der semantischen
Abbildung schwerf&auml;llig und zerbrechlich. Das Problem ist analog zu Fehlern welche Lernende einer Fremdsprache manchmal machen, wenn sie
einzelne W&ouml;rter in der Zielsprache als Equivalent in einer 1:1 Beziehung mit W&ouml;rtern ihrer Muttersprache behandeln. Wort-f&uuml;r-Wort 
&Uuml;bersetzungen  tendieren  dazu nicht mehr als Stilisierungen zu sein, und k&ouml;nnen ernsthaft in die Irre f&uuml;hren. Eine L&ouml;sung in der
Fremdsprachenp&auml;dagogik lautet darauf zu bestehen, da&szlig; die grundlegende Einheit der &Uuml;bersetzung nicht das Wort sondern die  &Auml;usserung
sein soll. Die analoge Regel f&uuml;r die Dokumentation der Bedeutung eines Markupvokabulars ist es, nicht die einzelnen Konstrukte, sondern Gruppen als die
Einheit der Dokumentation zu behandeln, wobei eine Gruppe alles sein kann was n&ouml;tig ist um eine (relativ) komplette &Auml;u&szlig;erung 
zu erzeugen. In einigen F&auml;llen ist die Gruppe alles was notwenig ist um eine komplete &Auml;sserung in der Zielnotation zu erzeugen.
Bestehende, ver&ouml;ffentlichte Vorschl&auml;ge haben Prolog [<xref
      href="#sperberg-mcqueen-miller-2004">Sperberg-McQueen/Miller 2004</xref>,
      <xref href="#hrsm-2000">Sperberg-McQueen/Huitfeldt/Renear 2000</xref>], Pr&auml;dikatenlogik erster Stufe [<xref href="#ioai">Sperberg-McQueen
            2006</xref>], (deklarative) S&auml;tze in Englisch [<xref
                  href="#marcoux-2006">Marcoux 2006</xref>] und RDF [<xref
                        href="#sperberg-mcqueen-miller-2004">Sperberg-McQueen/Miller 2004</xref>,
      <xref href="#grddl">Haza&euml;l-Massieux/Connolly 2005</xref>] als Zielnotation verwendet.</p>
 
<p lang="en">Ideally, the target notation should have a declarative
interpretation and be capable of expressing the key concepts in the
semantics being documented. And in the case of future-proofing your
data, it will of course be convenient if the notation is one familiar
to the future receiver of the data. </p>
      
      <p lang="de">Idealerweise sollte die Zielnotation eine deklarative Interpretation besitzen und in der Lage sein, Kernkonzepte der Semantik
      zu dokumentieren. Und im Falle der Zukunftsicherung von Daten, ist es nat&uuml;rlich g&uuml;nstig wenn die Notation dem zuk&uuml;nftigen
      Empf&auml;nger der Daten vertraut ist.</p>

<p lang="en">Documenting markup constructs by specifying translation equivalents
in some target notation has, of course, two purposes. It can serve a
purely documentary purpose, making clear the meaning of the markup
constructs in question. But it can also be useful not simply to
understand the translation equivalents but to use them to guide
translation of data into the target language, which can be used as an
interlingua for data integration.</p>

<p lang="de">Die Dokumentation von Markup-Konstrukten mittels der Spezifizierung von &Uuml;bersetzungsequivalenten in einigen Zielnotationen hat
nat&uuml;rlich zwei Zwecke. Sie kann rein dokumentarischen Zwecken dienen, indem sie die Bedeutung der fraglichen Markup-Konstrukte explizit macht.
Aber es kann auch n&uuml;tzlich sein die  &Uuml;bersetzungsequivalente nicht nur zu verstehen, sondern sie auch zu benutzen, um die &Uuml;bersetzung
von Daten in eine Zielsprache zu leiten, welche als Interlingua der Datenintegration verwendet werden kann.</p>

<p lang="en">The ability for schema creators or trusted third-party services to
define machine-processable mappings into such integration languages is
an important step in making one's information available and useful
beyond the application that created it or the manner in which it was
created.</p>
      
      <p lang="de">Die F&auml;higkeit des Entwicklers des Schemas oder von vertrauenswerten, fremden Services, maschinell
      verarbeitbare Abbildungen in derartige Integrationssprachen zu definieren, ist ein wichtiger Schritt 
      bei der Bereitstellung und Brauchbarkeit eigener Informationen auf eine Weise, die &uuml;ber die erzeugende Anwendung oder die Art der Erzeugung hinaus geht.</p>

<p lang="en">There are of course some salient differences in expressive power
and philosophical commitments among the target notations mentioned,
but where we are concerned with semantics which can be expressed in
any of them, the choice among them may be motivated by purely
pragmatic considerations: clarity, wide usage and understanding of the
notation, and the existence of useful tools to work with the
notation. On these grounds, cases could be made for all of the target
notations named so far. Another important practical consideration for
those who would like to be able to integrate their data with other
information sources is suitability for use in a decentralized network
with a decentralized naming convention that can guarantee freedom from
name collisions. These considerations probably favor RDF and the use
of URIs for names.</p>
      
<p  lang="de">Es gibt nat&uuml;rlich einige hervorstechende Unterschiede in der Ausdruckskraft und der philosophischen
Verbindlichkeiten zwischen den erw&auml;hnten Zielnotationen, aber wenn es uns um eine Semantik geht welche in jeder der
Notationen ausgedr&uuml;ckt werden kann, ist die Wahl zwischen ihnen m&ouml;glicherweise allein motiviert durch pragmatische &Uuml;berlegungen:
Klarheit, weit verbreitete Anwendung und  Verst&auml;ndnis der Notation, und die Existenz n&uuml;tzlicher Werkzeuge, um mit der Notation zu arbeiten.
Auf diesen Grundlagen k&ouml;nnte man f&uuml;r alle bisher genannten Notationen argumentieren. Eine weitere wichtige praktische &Uuml;berlegung
f&uuml;r diejenigen, welche ihre Daten mit anderen Informationsquellen integrieren wollen, ist die Eignung zur Nutzung in einem dezentralen Netzwerk mit
dezentralisierten Namenskonventionen, welche  Freiheit von Namenskollisionen garantieren k&ouml;nnen. Diese &Uuml;berlegungen geben wahrscheinlich
RDF und der Nutzung von URIs den Vorzug.</p>

-->
<!--* [ Several proposals have been made for this kind of translation from a
specific vocabulary into another vocabulary which is, or is expected to be,
well known in a wider community and for a longer time. Architectural forms are
perhaps the best known, followed perhaps by the Schema Adjunct Framework and
GRDDL. Many of these proposals posit a one to one mapping between individual
items of the source vocabulary and individual items of the target vocabulary.
While a machine-processible means for expressing this relationship is an
important step it not generally enough. The correct unit of documentation and
translation, is not the individual datum (element content or attribute value,
<SPAN CLASS="caps">RDBMS</SPAN> column value) but the cluster of inter-related
data. It is not enough for each 'date' element to be mapped to the
'date_of_sale' column in the right table; the value must also be correctly
associated with the right customer id, product ids, and so on. That is, it has
to go in the right row, or else the translation is worse than useless. 
-->

<p lang="en">In sum, the markup vocabulary (or more generally the data format
used) in any data intended to have a long life should be documented in
several different ways:</p>
      
      <p lang="de">Zusamenfassend sollte das Markup Vokabular (oder genereller gesagt das verwendete Datenformat)
      in allen f&uuml;r  Langlebigkeit angelegten Daten auf verschiedene Arten dokumentiert werden:</p>

<list type="ordered"><item lang="en"> general high-level documentation</item>
<item lang="en">reference information for each element and attribute</item>
<item lang="en">local usage notes, when local usage constitutes a consistent
dialect of a public vocabulary in wider use</item>
<item lang="en">descriptions of the meaning of the markup by giving translations
of markup constructs into one or more formal notations: first-order
predicate calculus, RDF, Prolog, etc.</item> </list>
      
      <list type="ordered"><item lang="de"> Generelle Dokumentation auf hoher Ebene</item>
            <item lang="de">Referenzinformationen f&uuml;r jedes Element und Attribut</item>
            <item lang="de">Anmerkungen zu lokaler Anwendung, wenn die lokale Anwendung eine konsistente Variante eines weit verbreiteten Vokabulars ausmacht.
            </item>
            <item lang="de">Beschreibungen der Bedeutung des Markups mittels einer  '&Uuml;bersetzung
                  der Bedeutung des Markups oder von Markup-Konstrukten in eine oder mehrere formale Notationen: Pr&auml;dikatenlogik
                  erster Stufe, RDF, Prolog etc.</item> </list>

<p lang="en"><seg type="rule">Rule 4. Avoid tag abuse.</seg></p>

      <p lang="de"><seg type="rule">Regel 4. den Tagmi&ss;brauch vermeiden!</seg></p>
      
<p lang="en">Tag abuse damages the utility of documentation, because when tag
abuse is committed, the language described in the documentation is no
longer the language in which the data are expressed. When elements or
attributes in a vocabulary are used without proper regard to their
defined semantics, the data become less easily reusable, because they
cannot be processed so reliably.</p>
      
<p lang="de">Der Tagmi&ss;brauch (engl. Tag abuse) schadet der
Nutzbarkeit von Dokumentation, denn wenn Tagmi&ss;brauch begangen wird, dann beschreibt
die Dokumentation nicht mehr
die Sprache, in der die Daten ausgedr&uuml;ckt werden. Wenn Elemente
oder Attribute nicht angemessen hinsichtlich ihrer definierten
Semantik benutzt werden, sind die Daten weniger einfach
wiederverwendbar, weil sie nicht so verl&auml;sslich verarbeitet
werden k&ouml;nnen.</p>

<p lang="en">Because it is defined in terms of a mismatch between the intended
semantics and the actual usage, tag abuse is difficult to detect by
purely automatic methods. But there are methods of making the
necessary human intervention easier and more efficient. False-color
proofs can be prepared, marking in striking colors the specific
passages a human should check (e.g. everything tagged as the name of a
person in red, or all part numbers on a blue background). The
semantics of the markup may be translated into English prose so that
it can be read and checked for inconsistencies or irrelevancies. See
[<xref href="#marcoux-2006">Marcoux 2006</xref>] for further discussion.</p>
      
<p lang="de">Der Tagmi&ss;brauch definiert man als
Unvertr&auml;glichkeit zwischen der beabsichtigten Semantik und der
tats&auml;chlichen Verwendung eines Tags   Es ist schwer, ihn mit automatischen
Methoden aufzusp&ue;ren.  Aber es gibt Methoden, welche das notwendige
menschliche Eingreifen einfacher und effizienter machen. So genannte
false-color Fassungen von Dokumenten k&ouml;nnen vorbereitet werden.
Sie stellen in auff&auml;lligen Farben Markierungen von spezifischen
Passagen bereit, welche ein Mensch &uuml;berpr&uuml;fen sollte (z.B.
alles in Rot was als ein Personenname ausgezeichnet ist, oder alle
Ortnamen mit blauem Hintergrund). Die Semantik des Markups kann in
natursprachige S&ae;tze &uuml;bersetzt werden, so da&szlig; sie hinsichtlich
Inkonsistenzen und Irrelevanz &uuml;berpr&uuml;ft werden kann.
Vergleiche [<xref href="#marcoux-2006">Marcoux 2006</xref>] f&uuml;r
weitere Diskussionen.</p>

<p lang="en"><seg type="rule">Rule 5. Provide and document ancillary documents.</seg></p>
      
      <p lang="de"><seg type="rule">Regel 5. Erg&auml;nzende  Dokumente sollen bereitgestellt und dokumentiert sein.</seg></p>      

<p lang="en">Fifth, transmit as much relevant context as possible. Important
metadata unique to a particular document should probably be recorded
internally within the document, rather than externally, so that it has
fewer chances to get lost. Metadata shared by many documents, however
important, will typically be stored separately in order to reduce
redundancy. It is helpful to have explicit links to such metadata from
the documents, or at least from some sort of contents-list showing the
things that belong together. As [<xref href="#wrightson-2006">Wrightson
2006</xref>] observes, the availability of such ancillary materials can go
far toward making the proper context of interpretation for the data
clear, and thus help prevent misunderstanding or incomprehension of
the data.</p>

<p lang="de">Soviel relevanter Kontext wie m&ouml;glich mu&ss; man an
den Empf&ae;nger weiterleiten. Wichtige Metadaten, die spezifisch sind
f&uuml;r ein bestimmtes Dokument, sollten wahrscheinlich eher
innerhalb des Dokuments gespeichert werden als extern, so da&szlig;
es weniger wahrscheinlich wird, da&ss; sie verloren gehen. <!--* Metadaten, die 
viele Dokumente beschr geteilt werden,  sind normalerweise separat
gespeichert, egal wie wichtig sie sind, um Redundanz zu reduzieren. Es
ist hilfreich explizite Links f&uuml;r solche Metadaten vom Dokument
aus zu haben, oder wenigstens eine Art von Inhaltsliste, welche
zusammengeh&ouml;rige Teile angibt.*-->  
<!--* [<xref
href="#wrightson-2006">Wrightson 2006</xref>] stellt fest da&szlig; *-->
Die Verf&uuml;gbarkeit solchen zus&auml;tzlichen Materials kann
weitreichend zum Verst&auml;ndnis des angemessenen Kontextes f&uuml;r
die Interpretation der Daten beitragen, und hilft somit
Mi&szlig;verst&auml;ndnisse oder ein Unverst&auml;ndnis der Daten zu
verhindern.</p>

<p lang="en"><seg type="rule">Rule 6. Validate and verify early and often.</seg></p>

      <p lang="de"><seg type="rule">Regel 6. Fr&ue;h und oft validieren und verifizieren!</seg></p>
      
<p lang="en">Sixth, perform routine validation and verification. In the general
case, semantics of formal languages are well defined only for well
formed utterances. Invalid documents do not necessarily have any fixed
interpretation. So validate early and often.</p>
      
      <p lang="de">Man kann viele Problem dadurch verhindern,
indem man regelm&auml;&szlig;ige
Validierung und Verifikation durchf&ue;rht. Im allgemeinen Fall ist die
Semantik formaler Sprachen nur f&uuml;r wohlgeformte
&Auml;u&szlig;erungen wohldefiniert. Nicht valide Dokumente haben
nicht notwendigerweise eine feste Interpretation. Es mu&ss; deshalb
fr&uuml;h und oft validiert werden.</p>

<p lang="en">The same goes for semantic validation and verification
procedures. (The reader should be aware that researchers and
practitioners active in the field of program verification treat
<term>verification</term> as denoting a mechanical process, and
<term>validation</term> as denoting a related non-mechanical process. The
markup community follows the tradition of formal logic in regarding
<term>validity</term> as a mechanically checkable property; not
infrequently, the term <term>verification</term> is used to denote the
related non-mechanical process. When you talk to someone interested in
the subject, make sure you understand which terminology they are
using.)</p>
<p lang="de">Das selbe trifft f&uuml;r semantische Validierungs- und
Verifikationsprozeduren zu. (Der Leser sollte sich bewu&ss;t sein
da&szlig; Forscher und Praktiker aus dem Bereich der
Programmverifikation <term>Verifikation</term> als mechanischen
Proze&ss; bezeichnen, und <term>Validierung</term> als zugeh&ouml;rigen
nicht mechanischen Proze&ss;. Die Markup Community folgt der Tradition
der formalen Logik, indem sie den Ausdruck <term>Validit&auml;t</term>
als mechanisch &uuml;berpr&uuml;fbare Eigenschaft auffa&ss;t; nicht
selten wird der Ausdruck <term>Verifikation</term> benutzt um einen
zugeh&ouml;rigen nicht mechanischen Proze&ss; zu bezeichnen. Wer sich
mit Anderen unterh&ae;lt, die Interesse an dem Thema haben, tut gut, 
sicherzustellen, da&szlig; man man sich u.U. die Terminologie sich
gegenseitig erkl&ae;rt.)</p>

<p lang="en">To summarize:</p>
<list type="ordered">
<item lang="en">Know what you wish to say.</item>
<item lang="en">Choose your generic
identifiers (element names), attribute names, and nesting structure
carefully.</item>
<item lang="en">Document the vocabulary, preferably in several
ways:<list type="ordered"><item lang="en">high-level prose documentation</item><item lang="en">detailed element
by element and attribute by attribute
description</item><item lang="en">documentation on local interpretations and
usage</item><item lang="en">description (in prose and executable code) of how to
express (at least part of) the meaning of a document instance in a
radically different notation such as first order logic or
RDF</item></list></item>
<item lang="en">Avoid tag abuse.</item>
<item lang="en">Make ancillary
documents (documentation, schemas, stylesheets, etc.) available to the
receiver.</item>
<item lang="en"> Validate both the syntax and the semantics of your
documents systematically.</item>
</list>      
      
      <p lang="de">Zusammenfassend:</p>
      <list type="ordered" lang="de">
            <item lang="de">&Uuml;berlegen, was Sie &ue;berhaupt sagen wollen!</item>
            <item lang="de">Die Auszeichnungssprache mit Sorgfalt entwerfen,
und die Elementnamen, die Attributnamen, und die 
                  Verschachtelungsstruktur mit Bedacht w&ae;hlen!</item>
            <item lang="de">Die Ausz.spr. dokumentieren, vorzugsweise auf verschiedene Arten:
                  <list type="ordered"><item lang="de">Dokumentation in Prosa auf hoher Ebene</item>
                        <item lang="de">detaillierte Beschreibung jedes Elements und jedes Attributes</item>
                        <item lang="de">Dokumentation zur lokalen Interpretationen und Verwendung</item>
                        <item lang="de">Beschreibung, in Prosa und als ausf&uuml;hrbarer Programmcode, zumindest  eines Teils 
                              der Bedeutung einer Dokumentinstanz in einer radikal anderen Notation wie Pr&auml;dikatenlogik erster Stufe oder RDF.</item></list></item>
            <item lang="de">Den Tagmi&ss;brauch vermeiden!</item>
            <item lang="de">Zus&auml;tzliche Dokumente (Dokumentation, Schemata, Stylesheets etc.) f&uuml;r den Empf&auml;nger bereitstellen!</item>
            <item lang="de">Sowohl die Syntax als auch die Semantik der Dokumente systematisch
validieren!</item>
      </list>    
</div>


</div>


<div>
<head>Schlu&ss;wort</head>

<p lang="en"> The data we work with and care about often has a much longer life
than the applications and tools used to create it. If we have to
re-create all the data we care about, every time we change hardware or
software, the cost will often be prohibitive. If we have to
<emph>tranform</emph> all our data, by importing it into the new system,
often in a lossy process, the cost will still be high. It is much
better to have our data in a form that can remain unchanged for a data
lifteime, that can be used as a long-term archival format, and that
allows easy transformation into application-specific formats. The
outline presented here is an initial attempt to help explore the
context for an answer.
</p>
<p lang="de">Die Daten, mit denen wir arbeiten und die die f&uuml;r uns
wichtig sind, sind oft best&auml;ndiger als die Anwendungen und
Werkzeuge, mit denen sie erzeugt werden. Die Kosten w&ue;rden
unerschwinglich sein, wenn wir alle f&uuml;r uns wichtigen Daten
jedesmal neu erzeugen m&uuml;ssten, wenn wir Hardware oder Software
auswechseln. Die Kosten werden immer noch hoch sein, wenn wir unsere
Daten <emph>transformieren</emph> m&uuml;ssen, indem wir sie in einem
oft verlustbehafteten Proze&ss; in ein neues System importieren. Es ist
viel besser, unsere Daten in einer Form zu haben, die unver&auml;ndert
bleiben kann, so lange die Daten bestehen, die als Format zur
Langzeitarchivierung verwendet werden kann, und die eine einfache
Transformation in anwendungsspezifische Formate erlaubt. Der hier
pr&auml;sentierte Entwurf ist ein erster Versuch, den Kontext einer
Antwort f&uuml;r dieses Problem zu erkunden.</p>
<p lang="de">Ein abschlie&szlig;ender Gedanke.
</p>
      
<p lang="en">As already noted - we can standardize only what we understand.</p>
      <p lang="de">Wie bereits bemerkt &mdash; standardisiert werden kann nur das, was man versteht.
      </p>      
<p lang="en">
So we will, as a society, have standards that do justice to the 
complexity, variability, and nuance of human cultures and our
cultural heritage only if those with the requisite knowledge and
experience participate actively in the development of appropriate
standards.</p>
      <p lang="de">Wir werden als Gesellschaft Standards, die der
Komplexit&auml;t, Variabilit&auml;t und Vielf&auml;ltigkeit
menschlicher Kultur und unseres kulturellen Erbes gerecht werden, nur
dann erzeugen, wenn Personen mit dem notwendigen Wissen und der
notwendigen Erfahrung aktiv an der Entwicklung der Standards
teilnehmen.</p>      
<p lang="en">From the side of standards development organizations, 
this goal can be achieved only if adequate provision is made
for public participation.  In the case of the W3C, which I 
know best, several features of our organization and process have 
been designed with this in mind.<list>
<item lang="en">W3C membership dues for non-profit organizations are
deeply discounted.</item>
<item lang="en">When appropriate, W3C working groups may include 
experts to participate in the work even though their organization
is not a member of W3C.  My own involvement with W3C began
as an invited expert in the Working Group which produced the 
XML specification.
So even if your organization does not join W3C, you may
when appropriate be able to participate in a WG as an
invited expert.</item>
<item lang="en">Every W3C Recommendation is published at least three
times, and most specs many more than three times,  for public review:
as a Last Call WD, as a Candidate Recommendation, and as a 
Proposed Recommendation.  At each stage, the responsible WG
has an absoloute obligation to attempt to resolve comments and
objectsion to the satisfaction of the commenter, whether they
represent a W3C member or not.  From experience I can affirm
that the comments of non-members are treated as seriously,
and can occasion just as much rework, as those of members.
So even if your organization does not join W3C, and even
if you are not serving as an invited expert, you have the
opportunity to comment, and the WG has the obligation to engage
seriously with your contributions.  (Earlier is better, of 
course.  Don't wait till PR and expect massive changes.)
</item>
</list>
</p>
      <p lang="de">Aus der Sicht von Standardisierungsorganisationen
ist dieses Ziel nur erreichbar, wenn ausreichende Vorraussetzungen
f&uuml;r die &ouml;ffentliche Teilnahme gegeben sind.  Im Falle des
W3C, welches ich am besten kenne, wurden mit diesem Umstand im
Hinterkopf verschiedene Eigenschaften der Organisation und des
W3C-Proze&ss;es definiert.<list>
                  <item>Die W3C-Mitgliedsgeb&uuml;hren f&uuml;r
gemeinn&uuml;tzige Organisationen sind gegen&uuml;ber denjenigen f&uuml;r die
Vollmitgliedschaft stark reduziert.</item>
                  <item>Unter geeigneten Umst&auml;nden d&uuml;rfen im
W3C Sachkundige an der Arbeit von Arbeitsgruppen teilnehmen, auch
wenn deren Organisation kein Mitglied des W3C ist. Meine eigene
Teilnahme beim W3C begann als <emph>invited expert</emph> in der
Arbeitsgruppe, in der die XML-Spezifikation erstellt wurde. Selbst
wenn man also nicht bei einer Organisation arbeitet, die dem W3C
beitritt, kann man m&ouml;glicherweise in einer Arbeitsgruppe als
<emph>invited expert</emph> mitarbeiten.</item>
                  <item>Jede W3C Empfehlung (Recommendation) wird
mindestens drei Mal f&uuml;r &ouml;ffentliche Kommentare
ver&ouml;ffentlicht, und manche Spezifikation noch &ouml;fter: als
<emph>Last Call Working Draft</emph>, als <emph>Candidate
Recommendation</emph>, und als <emph>Proposed Recommendation</emph>.
In jeder Phase hat die verantwortliche Arbeitsgruppe die absolute
Verpflichtung zu versuchen, allen Kommentaren und Einw&auml;nden
gerecht zu werden und den Kommentierer zufrieden zu stellen,
unabh&auml;ngig davon, ob er ein W3C-Mitglied <!--* repr&auml;sentiert *-->
vertritt, oder
nicht. Aus meiner eigenen Erfahrung kann ich best&auml;tigen, da&szlig; die
Komentare von Nicht-Mitgliedern genauso ernst genommen werden und
genauso viele Umarbeitungen der Spezifikation hervorrufen k&ouml;nnen,
wie die Kommentare von Mitgliedern. Das hei&szlig;t, selbt wenn eine
Organisation nicht dem W3C beitritt und selbst wenn man kein
<emph>invited expert</emph> ist, hat man die M&ouml;glichkeit,
Kommentare abzugeben, und die Arbeitsgruppe hat die Verpflichtung sich
ernsthaft mit diesen Kommentaren zu besch&auml;ftigen. (Nat&uuml;rlich
kommen Kommentare je fr&uuml;hrer desto besser an.  Wenn man erst in
der Schlu&ss;phase massenhafte Ab&auml;nderungen vorschl&auml;gt, ist
kaum zu erwarten, da&ss; die Arbeitsgruppe die Vorschl&auml;ge
freudig annimmt.)
                  </item>
            </list>
      </p>
      
      <p lang="en">But much can also be undertaken from the side of organizations
concerned with the study and the preservation of human cultural heritage.
There are far too few member organizations of W3C which represent
scholarship and users, in proportion to those which represent
softwawre vendors.  Boeing does a great deal to represent users
of the Web, but they can only do so much!</p>
      <p lang="de">Viel kann aber auch unternommen werden von Seite
der Organisationen, welche sich mit der Studie und dem Erhalt des
menschlichen kulturellen Erbes besch&auml;ftigen. Es gibt im Verh&auml;ltnis zu
Softwareherstellern viel zu wenig W3C-Mitgliedsorganisationen, die die Forschung und die Nutzer von
Standards repr&auml;sentieren. Die Boeing Company z.B. vertritt im W3C
auf hervorragende Weise die Interessen der Benutzer des Webs, aber 
auch ihr sind als Einzelmitglied Grenzen gesetzt!</p>
      
<p lang="en">
The work of W3C, and thus the Web as a whole, would benefit from more participation
by universities and other culutral institutions.  Is hyour institution a member of
W3C?  I have reviewed our membership list, and
I am sorry to say:  no.</p>
      <p lang="de">Die Arbeit des W3C, und des W3C als ganzes,
w&uuml;rde sehr von der Teilnahme von Universit&auml;ten und anderen
kulturellen Institutionen profitieren. Sind die Einrichtungen, die
hier im Workshop vertreten sind, Mitglieder des W3C? Ich habe mir
die Liste unserer Mitglieder angeschaut und mu&szlig; leider sagen:
nein.</p>       
<p lang="en">
Please join!  If you can't join, please participate in other ways,
by commenting on the specs and engaging with the WGs!  And similarly 
at other standards organizations which provide for public comment.</p>
      <p lang="de">
            Bitte treten Sie dem W3C bei! Wenn Sie das nicht
k&ouml;nnen, dann nehmen Sie bitte auf andere Weise teil, indem Sie
Spezifikationen kommentieren und sich mit der Arbeit des W3C
vertraut machen! Und tun Sie auch &Auml;hnliches bei anderen
Standardisierungsorganisationen, die &ouml;ffentliche Kommentare
erlauben.</p>
<p>So k&ouml;nnen wir erreichen, da&szlig; die Standards, die vom W3C oder
andere Normierungsorganisationsen verabschiedet werden, und die
wissenschaftlicher Projekte, wie sie hier vertreten sind, sich durch
ihren Erfahrungsaustausch  
gegenseitig bereichern k&ouml;nnen.</p>
<p>[Pause]</p>
<p>Und jetzt kann ich im Ernst sagen:
Das w&auml;r's.  
<!--* Tschuess, Ihr Lieben!   *-->
Ich danke f&uuml;r die Aufmerksamkeit.
</p>
</div>
</body>
<back>
<!--* <div>
<head>Notes</head>

<p lang="en">Jakobson's model of communication</p>
      <p lang="de">Jakobson's Kommunikationsmodell</p>
<p lang="en">Material from Sperberg-McQueen / Miller 2006? Amsterdam
(slides <xref>http://www.w3.org/2006/Talks/0517-xtech-msm-em/</xref>, 
paper <xref>http://www.w3.org/2006/04/emmsm/XTech.em-msm.htm</xref>
</p>
      <p lang="de">Material aus Sperberg-McQueen / Miller 2006? Amsterdam. Folien: 
            <xref>http://www.w3.org/2006/Talks/0517-xtech-msm-em/</xref>.
            Aufsatz: <xref>http://www.w3.org/2006/04/emmsm/XTech.em-msm.htm</xref></p>
      <p lang="en">Tradeoffs between standardization and customization. We want 
            to capture the "significant particularities", and that means the 
            Eigenschaften, die Eigenheiten, des jeweiligen Materials. Shift to the 
            meta-level as a way of controlling Vielfalt in Einfalt.
      </p>
      <p lang="de">Kompromiss zwischen Standardisierung und Anpassung.
Wir wollen "signifikante Besonderheiten" erfassen, da&szlig; hei&szlig;t
die Eigenschaften des jeweiligen Materials. Der Wechsel zu einer Meta-Ebene ist ein Weg Vielfalt in der
Einfalt zu kontrollieren.</p>
<p lang="en">
Lifespan discussion
</p>
<p lang="en">Incorporate &Oslash;yvind Eide's remarks from DH 2008</p>
<p lang="en">(for Fotis) among the ancillary documents, how do we describe the user interface?
(solitaire ...)</p>
</div>
*-->
<div>
<head></head>
<listBibl>

<bibl id="webarch">Berners-Lee, Tim, Dan Connolly, and Ralph
R. Swick. 1999. <xref href="http://www.w3.org/1999/04/WebData">Web
Architecture: Describing and Exchanging Data</xref>, W3C Note 7 June
1999. [Cambridge, Sophia-Antipolis, and Tokyo]: World Wide Web
Consortium. On the Web at <xref href="http://www.w3.org/1999/04/WebData">http://www.w3.org/1999/04/WebData</xref></bibl>

<bibl id="capelli">Capelli, Adriano. 1899. 
<title>Dizionari di Abbreviature latine ed italiane
usate nelle carte e codici specialment del medio-evo</title>
Milano:  Ulrico Hoepli.  [Und viele sp&auml;tere Ausgaben.] 
</bibl>

<bibl id="grddl">Haza&euml;l-Massieux, Dominique, and Dan
Connolly. 2005. <xref href="http://www.w3.org/TeamSubmission/2005/SUBM-grddl-20050516/">
Gleaning Resource Descriptions from Dialects of Languages (GRDDL)</xref>,
W3C Team Submission 16 May 2005.  [Cambridge, Sophia-Antipolis, and
Tokyo]: World Wide Web Consortium. On the Web at <xref href="http://www.w3.org/TeamSubmission/2005/SUBM-grddl-20050516/">http://www.w3.org/TeamSubmission/2005/SUBM-grddl-20050516/</xref></bibl>

<bibl id="jakobson-1960">Jakobson, Roman. 1960. "Closing Statement:
Linguistics and Poetics", in <title level="m">Style In Language</title>,
ed. Thomas A.  Sebeok (Cambridge: MIT Press, 1960), pp. 350-377.</bibl>

<bibl id="lockss-2006"> [LOCKSS Project.] 2006.  <xref href="http://www.lockss.org/lockss/Home">LOCKSS: Lots of Copies Keep
Stuff Safe</xref>. Project home page at <xref href="http://www.lockss.org/lockss/Home">http://www.lockss.org/lockss/Home</xref>.</bibl>

<bibl id="marcoux-2006">Marcoux, Yves. 2006. "A natural-language approach
to modeling (extended draft) Why is some XML so difficult to write?"
Extreme Markup Languages 2006 (forthcoming).</bibl>

<bibl id="maler-elandaloussi-1996">Maler, Eve, and Jeanne El
Andaloussi. 1996. <title>Developing SGML DTDs: From text to model to
markup</title>. Upper Saddle River, NJ: Prentice Hall PTR, 1996. xxiv,
532 pp; index.</bibl>

<bibl id="small">Small, Jocelyn Penny. 
<title level="a">Retrieving Images Verbally: No More Key Words and Other Heresies</title>. 
<title level="j">Library Hi Tech</title> 9.1 (1991): 51-60.</bibl>

<bibl id="hrsm-2000">Sperberg-McQueen, C. M., Claus Huitfeldt, and Allen
Renear. &#x0093;Meaning and interpretation of markup.&#x0094;
<title>Markup Languages: Theory &amp; Practice</title> 2.3 (2001):
215-234.  On the Web at
<xref>http://www.w3.org/People/cmsmcq/2000/mim.html</xref> </bibl>

<bibl id="em-msm-2004">
Sperberg-McQueen, C. M., and Eric Miller. 2004.  <xref href="http://www.mulberrytech.com/Extreme/Proceedings/html/2004/Sperberg-McQueen01/EML2004Sperberg-McQueen01.html">On
mapping from colloquial XML to RDF using XSLT</xref>, Extreme Markup
Languages 2004. On the Web at <xref href="http://www.mulberrytech.com/Extreme/Proceedings/html/2004/Sperberg-McQueen01/EML2004Sperberg-McQueen01.html">http://www.mulberrytech.com/Extreme/Proceedings/html/2004/Sperberg-McQueen01/EML2004Sperberg-McQueen01.html</xref></bibl>

<bibl id="saf-2000">Vorthmann, Scott, Jonathan Robie, and Lee
Buck. 2000. &#x0093;Schema adjunct framework&#x0094;. Draft
Specification 30 November 2000. [Chapel Hill]: Extensibility.  <xref href="http://www.extensibility.com/saf/spec/">http://www.extensibility.com/saf/spec/</xref>
(no longer available?) <xref href="http://xml.coverpages.org/SchemaAdjunctFramework200011.html">http://xml.coverpages.org/SchemaAdjunctFramework200011.html</xref></bibl>

<bibl id="vorthmann-robie-2001">Vorthmann, Scott, and Jonathan Robie.
2001. &#x0093;Beyond schemas: Schema adjuncts and the outside
world&#x0094;.  <title>Markup Languages: Theory &amp; Practice</title>
2.3 (2001): 281-294.
</bibl>

<bibl id="wrightson-2001">Wrightson, Ann. 2001. "Some Semantics for
Structured Documents, Topic Maps and Topic Map Queries." Extreme
Markup Languages 2001. On the Web at <xref href="http://www.mulberrytech.com/Extreme/Proceedings/html/2001/Wrightson01/EML2001Wrightson01.html">http://www.mulberrytech.com/Extreme/Proceedings/html/2001/Wrightson01/EML2001Wrightson01.html</xref></bibl>

<bibl id="wrightson-2005">Wrightson, Ann. 2005. "Semantics of Well Formed
XML as a Human and Machine Readable Language." Extreme Markup
Languages 2005. On the Web at <xref href="http://www.mulberrytech.com/Extreme/Proceedings/html/2005/Wrightson01/EML2005Wrightson01.html">http://www.mulberrytech.com/Extreme/Proceedings/html/2005/Wrightson01/EML2005Wrightson01.html</xref></bibl>

<bibl id="wrightson-2006">Wrightson, Ann. 2006. "Conveying Meaning
through Space and Time using XML." Extreme Markup Languages
2006. Forthcoming.</bibl>


 

</listBibl>
</div>
</back>
</text>
</TEI.2>
<!-- Keep this comment at the end of the file
Local variables:
mode: xml
sgml-default-dtd-file:"/Library/SGML/Public/Emacs/sweb.ced"
sgml-omittag:t
sgml-shorttag:t
End:
-->

