<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>xscDevBlog - LastSharp &#38; Co.</title>
	<atom:link href="http://dev.xscheme.de/feed/" rel="self" type="application/rss+xml" />
	<link>http://dev.xscheme.de</link>
	<description>Der xscheme-DevelopmentBlog</description>
	<lastBuildDate>Wed, 03 Mar 2010 00:36:48 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.1</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>[Proof of Concept] SharpConnect</title>
		<link>http://dev.xscheme.de/2010/03/proof-of-concept-sharpconnect/</link>
		<comments>http://dev.xscheme.de/2010/03/proof-of-concept-sharpconnect/#comments</comments>
		<pubDate>Wed, 03 Mar 2010 00:22:40 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[C#]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Theorie]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=989</guid>
		<description><![CDATA[Nachdem ich in den letzten Tagen an einem Konzept getüftelt habe, wie man verschiedene webbasierte APIs einfach zugänglich machen könnte, möchte ich nun eine beispielhafte Implementierung vorführen: SharpConnect. (Download DLL) Und das Ziel meiner Wahl ist natürlich Last.FM, was auch sonst. Wohlgemerkt gehe ich hier nicht auf die Umsetzung ein, nur auf die Verwendung.
Es stellt [...]]]></description>
			<content:encoded><![CDATA[<p>Nachdem ich in den letzten Tagen an einem <a href="http://dev.xscheme.de/2010/03/concept-generischer-api-zugriff/">Konzept</a> getüftelt habe, wie man verschiedene webbasierte APIs einfach zugänglich machen könnte, möchte ich nun eine beispielhafte Implementierung vorführen: <strong>SharpConnect</strong>. (<a href="http://dev.xscheme.de/sources/LastConnect.dll">Download DLL</a>) Und das Ziel meiner Wahl ist natürlich Last.FM, was auch sonst. Wohlgemerkt gehe ich hier nicht auf die Umsetzung ein, nur auf die Verwendung.</p>
<p>Es stellt sich zuerst die Frage: <strong>Was wollen wir?</strong> Ich für meinen Teil würde z.B. gerne wissen, wo und wann Kasabian demnächst Konzerte geben (Nicht, dass die Chance bestünde, das München auf der Liste wäre, aber dennoch&#8230;), und somit böte sich der API-Aufruf <a href="http://www.lastfm.de/api/show/?service=117">artist.getEvents</a> zur näheren Betrachtung an: <strong>Welche Parameter hat er, wie muss er ausgeführt werden und wie sieht die Antwort aus?</strong></p>
<p>Wir sehen, dass es zwei Parameter gibt (&#8220;artist&#8221; und &#8220;api_key&#8221;, beide benötigt) und dass die Antwort ein XML-Dokument ist, dass die Wurzel &#8220;lfm&#8221; hat, anschließend den Knoten &#8220;events&#8221; und viele Kindknoten &#8220;event&#8221;, die die einzelnen Konzerte enthalten. Diese wiederum besitzen Werte für die auftretenden Künstler, den Ort, die Zeit, Ticketverkäufe, etc&#8230; Das Beispiel von der API-Seite:</p>
<pre class="brush:xml">&lt;events artist="Cher" xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#" total="4"&gt;
&lt;event&gt;
    &lt;id&gt;599858&lt;/id&gt;
  &lt;title&gt;Cher&lt;/title&gt;
  &lt;artists&gt;
    &lt;artist&gt;Cher&lt;/artist&gt;
    &lt;headliner&gt;Cher&lt;/headliner&gt;
  &lt;/artists&gt;
  &lt;venue&gt;
    &lt;name&gt;The Colosseum at Caesars Palace&lt;/name&gt;
    &lt;location&gt;
      &lt;city&gt;Las Vegas&lt;/city&gt;
      &lt;country&gt;United States&lt;/country&gt;
      &lt;street&gt;&lt;/street&gt;
      &lt;postalcode&gt;&lt;/postalcode&gt;
      &lt;geo:point&gt;
         &lt;geo:lat&gt;36.2265501474709&lt;/geo:lat&gt;
         &lt;geo:long&gt;-115.0048828125&lt;/geo:long&gt;
      &lt;/geo:point&gt;
      &lt;timezone&gt;PST&lt;/timezone&gt;
     &lt;/location&gt;
    &lt;url&gt;http://www.last.fm/venue/8841108&lt;/url&gt;
  &lt;/venue&gt;
  &lt;startDate&gt;Sat, 16 Aug 2008&lt;/startDate&gt;
  &lt;startTime&gt;19:30&lt;/startTime&gt;
  &lt;description&gt;&lt;/description&gt;
  &lt;image size="small"&gt;...&lt;/image&gt;
  &lt;image size="medium"&gt;...&lt;/image&gt;
  &lt;image size="large"&gt;...&lt;/image&gt;
  &lt;attendance&gt;42&lt;/attendance&gt;
  &lt;reviews&gt;0&lt;/reviews&gt;
  &lt;tag&gt;lastfm:event=669027&lt;/tag&gt;
  &lt;url&gt;http://www.last.fm/event/599858&lt;/url&gt;
  &lt;website&gt;http://...&lt;/website&gt;
  &lt;tickets&gt;
    &lt;ticket supplier="..."&gt;http://...&lt;/ticket&gt;
    ...
  &lt;/tickets&gt;
&lt;/event&gt;
...
&lt;/events&gt;
</pre>
<p><span id="more-989"></span>SharpConnect stellt die folgenden Klassen zur Verfügung:</p>
<ul>
<li><strong>SharpConnect.Apitizer.Apitizer</strong> bzw. <strong>SharpConnect.Xml.XmlApitizer</strong> zur Verwaltung von Methoden</li>
<li><strong>SharpConnect.Apitizer.Method</strong> zur Darstellung von Methoden</li>
<li><strong>SharpConnect.Apitizer.Parameters</strong> zur Darstellung von Parametern</li>
<li><strong>SharpConnect.Apitizer.Accessor</strong> als Zugriffsklasse für Antworten</li>
<li><strong>SharpConnect.Apitizer.Rule</strong> bzw. <strong>SharpConnect.Xml.XmlRule</strong> zur Darstellung von Accessor-Regeln</li>
<li><strong>SharpConnect.Apitizer.Codec</strong> bzw. <strong>SharpConnect.Xml.XmlCodec</strong> zur Umwandlung von Anfragen und Antworten.</li>
</ul>
<p>Mehr brauchen wir eigentlich nicht, und auch, wenn das keine wirklich kurze Liste ist, die Verwendung der einzelnen Klassen ist nicht besonders kritisch. Beginnen wir mit dem schwersten, dem <strong>Codec</strong>.</p>
<p>Wenn wir diesen auf Basis von XmlCodec aufbauen, haben wir die Hälfte schon geschafft:  die Antworten (<em>Response</em>) werden automatisch in einen Accessor für XML umgewandelt und können anschließend anhand der Regeln, die wir noch definieren werden, durchlaufen werden. Was wir noch machen müssen, ist, die Daten, die gesendet werden sollen (<em>Request</em>), vorzubereiten. LastFM erwartet die einzelnen Parameter als Query-String von Name-Wert-Paaren, also z.B.:</p>
<pre class='brush:plain'>method=artist.getEvents&amp;artist=Cher&amp;api_key=b25b959554ed76058ac220b7b2e0a026</pre>
<p>Der API-Key wird immer angehängt, bei Anfragen, die Daten verändern, sogar noch eine Session und ein API-Secret, diese lassen wir jedoch hier unter den Tisch fallen. Man muss es ja nicht gleich übertreiben. Unser Last.FM Codec könnte also folgendermaßen aussehen:</p>
<pre class="brush:c-sharp"> public class LastFMCodec : XmlCodec
 {
   private string apiKey;

   public LastFMCodec(string key)
     : base("lfm", null)
   {
     this.apiKey = key;
   }

   public override Request Encode(Method m, Parameters p)
   {
     string method = m.Name;
     string query = "method=" + method + "&amp;";
     query += p.QueryString("&amp;", "=");
     query += "api_key=" + this.apiKey + "&amp;";
     if (m.IsPOST) return new Request("", query);
     else return new Request(query, "");
   }
 }
</pre>
<p>Das wars auch schon. Das meiste wird ohnehin von SharpConnect erledigt, sodass wir uns nun auf den <strong>Apitizer</strong> konzentrieren können. Auch hier ist die Klasse XmlApitizer eine wunderbare Grundlage, die nicht viele Ergänzungen benötigt:</p>
<pre class="brush:c-sharp"> public class LastFMApitizer : XmlApitizer
 {
   public LastFMApitizer(string key, WebProxy p)
     : base("http://ws.audioscrobbler.com/2.0/", new LastFMCodec(key), p)
   {
      AddMethods(this);
   }

   private static void AddMethods(XmlApitizer api) {
     // Methods here!
   }
 }
</pre>
<p>Wir haben nun also einen Apitizer erstellt, der alle Anfragen an &#8220;http://ws.audioscrobbler.com/2.0/&#8221; sendet und den soeben definierten Codec verwendet. Nun müssen wir dem Apitizer nur noch sagen, was er eigentlich kann.</p>
<p>Eine Methode wird definiert durch</p>
<ul>
<li>einen Namen,</li>
<li>eine Liste von Parameter-Namen,</li>
<li>eine Liste von boolschen Werten, die angibt, welche Parameter benötigt werden, sowie</li>
<li>einen Wert der angibt, ob die Anfrage über HTTP-POST läuft oder nicht.</li>
</ul>
<p>In unserem Fall sieht dies nun folgendermaßen aus (Der API-Key wird im Encoder automatisch hinzugefügt!):</p>
<pre class="brush:c-sharp"> Method artistGetEvents = new Method(
   "artist.getEvents",
   new String[] { "artist" },
   new bool[] { true },
   false
 );</pre>
<p>Was machen wir nun mit der Antwort dieses Aufrufs? Die Antwort: wir verwenden die Klasse <strong>XmlRule</strong>, um Zuordnungen zwischen Attributnamen und Knoten des Antwortdokuments herzustellen. Das Mittel der Wahl ist hierbei XPath.</p>
<pre class="brush:c-sharp;"> XmlRule Image = new XmlRule();
 Image.Set("URL", "self::node()");
 Image.Set("Size", "@size");

 XmlRule Event = new XmlRule();
 Event.Set("Name", "title");
 Event.Set("ID", "id");
 Event.Set("Artists", "artists/artist");
 Event.Set("Headliner", "artists/headliner");
 Event.Set("Date", "startDate");
 Event.Set("Time", "startTime");
 Event.Set("Description", "description");
 Event.Set("Images", "image", Image);             // !!!
 Event.Set("Attendance", "attendance");
 Event.Set("ReviewCount", "reviews");
 Event.Set("UniqueTag", "tag");
 Event.Set("Website", "website");

 XmlRule rule = new XmlRule();
 rule.Set("Count", "/lfm/events/@total");
 rule.Set("Events", "/lfm/events/event", Event); // !!!</pre>
<p>Zuerst wird eine Bild-Regel definiert: das Attribut &#8220;URL&#8221; liefert den Wert des Knotens, &#8220;Size&#8221; den Wert des &#8220;size&#8221;-Attributs. Die beiden blauen Zeilen zeigen die Verwendung von bestehenden Regeln als Unterobjekte: die Regel &#8220;Image&#8221; ist auf alle Knoten anwendbar, die über das Attribut &#8220;Images&#8221; gefunden werden, d.h. jeder Knoten aus &#8220;Images&#8221; erlaubt wieder Zugriff auf &#8220;URL&#8221; und &#8220;Size&#8221;. Gleiches für &#8220;Events&#8221;: alle Knoten, die über den XPath-Ausdruck &#8220;/lfm/events/event&#8221; gefunden werden, haben Attribute &#8220;Name&#8221;, &#8220;ID&#8221;, &#8220;Artists&#8221;, &#8230;</p>
<p>Wir müssen nur noch dem Decoder sagen, dass er diese Regel verwenden soll, wenn er eine Antwort auf eine &#8220;artist.getEvents&#8221;-Anfrage erhält. Dies geschieht durch gleichzeitiges Registrieren der Methode im Apitizer und Codec mittels &#8220;Apitizer.Method&#8221; (Wir befinden uns wieder in der statischen Funktion &#8220;AddMethods&#8221; von oben):</p>
<pre class="brush:c-sharp;">api.Method(artistGetEvents, rule);
</pre>
<p>Und nun sind wir fertig.</p>
<h2>Beispiel gefällig?</h2>
<p>Das folgende Beispiel funktioniert mit meiner aktuellen Implementierung von SharpConnect. Neu im Vergleich zum eben besprochenen ist nur die Klasse &#8220;LastFMValue&#8221;, die den Accessor für XML-Dokumente darstellt:</p>
<pre class="brush:c-sharp;"> LastFMApitizer lfm = new LastFMApitizer("b25b959554ed76058ac220b7b2e0a026", "", null);

 LastFMValue resp = lfm.Execute("artist.getEvents", new Parameters(
   "artist", "Kasabian"
 ));
 if (resp != null)
 {
   Console.Write(resp.ToString()); // oder z.B. Console.Write(resp.All("Events")[2].Value("Date"));
 }
 Console.ReadLine();
</pre>
<p>Die Ausgabe sieht so oder  ähnlich aus (auf all diese Attribute und Array-Elemente könnte man mittels &#8220;resp.Get(attribut)&#8221;  und &#8220;resp.All(attribut)&#8221; zugreifen, vgl. den Concept-Artikel):</p>
<pre>  Status : ok
  Count : 14
  Events[0] :
    Status : ok
    Name : Kasabian
    ID : 1408186
    URL : http://www.last.fm/event/1408186+Kasabian+at+Tivoli+Oudegracht+on+27+May+2010
    Artists : Kasabian
    Headliner : Kasabian
    Date : Thu, 27 May 2010 12:08:01
    Description : ...
    Images[0] :
      URL : http://userserve-ak.last.fm/serve/34/284053.jpg
      Size : small
    Images[1] :
      URL : http://userserve-ak.last.fm/serve/64/284053.jpg
      Size : medium
    Images[2] :
      URL : http://userserve-ak.last.fm/serve/126/284053.jpg
      Size : large
    Images[3] :
      URL : http://userserve-ak.last.fm/serve/252/284053.jpg
      Size : extralarge
    Attendance : 87
    ReviewCount : 0
    UniqueTag : lastfm:event=1408186
    Website : http://www.tivoli.nl/agenda/informatie/datum/do-27-mei-2010/titel/KASABIAN
  Events[1] :
    Status : ok
    Name : Pinkpop 2010
    ID : 932823
    URL : http://www.last.fm/event/932823+Pinkpop+2010
    Artists[0] : Green Day
    Artists[1] : Pixies
    Artists[2] : Kasabian
    Artists[3] : The Prodigy
    Artists[4] : Rammstein
    Artists[5] : John Mayer
    Artists[6] : Editors
    Artists[7] : Mika
    Artists[8] : Wolfmother
    Artists[9] : Kate Nash
    Artists[10] : Mando Diao
    Artists[11] : Paolo Nutini
    Artists[12] : P!nk
    Artists[13] : Florence + The Machine
    Artists[14] : Skunk Anansie
    Artists[15] : Gogol Bordello
    Artists[16] : Biffy Clyro
    Artists[17] : Yeasayer
    Artists[18] : The Temper Trap
    Artists[19] : Danko Jones
    Artists[20] : Gossip
    Artists[21] : 2 Many DJ's
    Artists[22] : Moke
    Artists[23] : Kitty, Daisy &amp; Lewis
    Artists[24] : Caro Emerald
    Artists[25] : Triggerfinger
    Artists[26] : Destine
    Artists[27] : DeWolff
    Artists[28] : Sungrazer
    Headliner : Green Day
    Date : Fri, 28 May 2010 21:24:01
    Description : ...
    Images[0] :
      URL : http://userserve-ak.last.fm/serve/34/42600061.jpg
      Size : small
    Images[1] :
      URL : http://userserve-ak.last.fm/serve/64/42600061.jpg
      Size : medium
    Images[2] :
      URL : http://userserve-ak.last.fm/serve/126/42600061.jpg
      Size : large
    Images[3] :
      URL : http://userserve-ak.last.fm/serve/252/42600061.jpg
      Size : extralarge
    Attendance : 560
    ReviewCount : 1
    UniqueTag : lastfm:event=932823
    Website : http://www.pinkpop.nl
  Events[2] :
    Status : ok
    Name : Kasabian
  ...
</pre>
<p>Ich arbeite im Moment an einer vollständigen Abbildung des Last.FM-APIs, auch wenn ich nicht weiß, ob ich das nicht lieber jedem selbst überlassen sollte. In den Worten von Morpheus:</p>
<p><strong>I can only show you the door, you have to  walk through it!</strong></p>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2010/03/proof-of-concept-sharpconnect/feed/</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>[Concept] Generischer API-Zugriff</title>
		<link>http://dev.xscheme.de/2010/03/concept-generischer-api-zugriff/</link>
		<comments>http://dev.xscheme.de/2010/03/concept-generischer-api-zugriff/#comments</comments>
		<pubDate>Tue, 02 Mar 2010 00:16:59 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[Theorie]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=983</guid>
		<description><![CDATA[Eines der größten Hindernisse beim Zugriff auf die Cloud, also die riesigen Datenmengen, die im Internet schweben, sowie die darauf basierenden Dienste, ist die Tatsache, dass die vielen verfügbaren APIs oftmals grundsätzlich verschieden sind. Dementsprechend ist es schwer, die eigene Arbeit, das eigene Wissen auf unterschiedliche Dienste/WebServices/APIs anzuwenden oder zu recyclen. Man beginnt meist wieder [...]]]></description>
			<content:encoded><![CDATA[<p>Eines der größten Hindernisse beim Zugriff auf die Cloud, also die riesigen Datenmengen, die im Internet schweben, sowie die darauf basierenden Dienste, ist die Tatsache, dass die vielen verfügbaren APIs oftmals grundsätzlich verschieden sind. Dementsprechend ist es schwer, die eigene Arbeit, das eigene Wissen auf unterschiedliche Dienste/WebServices/APIs anzuwenden oder zu recyclen. Man beginnt meist wieder bei Null &#8211; und sei es bloß, die bereits fertige Implementierung eines anderen zu verstehen.</p>
<p>Mein Problem begann beim Last.FM-Webservice: wie kann ich dessen Funktion möglichst einfach zugänglich machen, ohne Flexibilität zu verlieren? Ich wollte nicht auf eine bereits bestehende Lösung zurückgreifen, da dort womöglich viel mehr angeboten als letztendlich benötigt wird; genauso sollte keine neue, nur für Last.FM nutzbare Implementierung geschaffen werden, sei sie auch noch so einfach zu verwenden &#8211; irgendwann müsste dann doch wieder von vorne begonnen werden&#8230; Eine neue Abstraktionsschicht musste her, eine vereinfachte, für den Otto-Normal-Programmierer sinnvolle Minimal-Version von <a href="http://de.wikipedia.org/wiki/Web_Services_Description_Language">WSDL</a> quasi. Etwas, das leicht zu erlernen und zu verwenden ist, ohne unnötigen Ballast.</p>
<h2><span id="more-983"></span><strong>Methoden</strong></h2>
<p>Im Prinzip kann man jede Funktion eines WebServices als <strong>Methode</strong> beschreiben. Diese hat:</p>
<ul>
<li>einen Namen,</li>
<li>eine Reihe von Parametern,</li>
<li>Informationen zu diesen Parametern (Typ? Optionaler Parameter?),</li>
<li>sowie ein Zugriffsprotokoll</li>
<li>und ein Antwortformat.</li>
</ul>
<p>Je genauer man Methoden beschreibt, desto sicherer kann man sich sein, dass ein Aufruf, der alle Anforderungen erfüllt, auch wirklich erfolgreich ist. Nur: die Daten, die so fällig werden, nehmen schnell an Größe und Komplexität zu, sodass man eigentlich nicht umhin kann, das Messer anzusetzen und so viel wie möglich wegzuschneiden:</p>
<ul>
<li>Zugriffsprotokoll:<br />
So ziemlich alle wichtigen WebServices sind über HTTP ansprechbar. Es ist nicht verwerflich, sich hierauf zu begrenzen.</li>
<li>Parametertypen:<br />
Letztlich erfolgt an irgendeiner Stelle immer eine Umwandlung in Strings, vor allem bei textbasierten Protokollen wie HTTP. Ersparen wir uns also die statische Typisierung, die ohnehin schwer zu implementieren ist.</li>
<li>Antwortformat:<br />
Auch hier könnte man sagen, dass man an XML ohnehin nicht vorbeikommt, allerdings ist in diesem Bereich Flexibilität wichtig: neue Formate wie JSON sind auf dem Vormarsch, vor allem für einfachere Anwendungen. Einigen wir uns darauf: <strong>Die Methode muss nicht wissen, wie ihre Antwort aussieht!</strong></li>
</ul>
<p>Übrig bleibt das in folgender Schreibweise zusammengefasste bisschen Information:</p>
<pre>Methode   M  = (Name, HTTP-Methode, [Parameter P1, Parameter P2, ...])
Parameter Px = (Name, required?)</pre>
<p>Als Beispiel sei der Aufruf <a href="http://www.lastfm.de/api/show?service=267">artist.getInfo</a> des Last.FM-APIs notiert:</p>
<pre>Methode M1   = (artist.getInfo, GET, (artist, false), (mbid, false), (username, false), (lang, false))</pre>
<p>Diese Methode ist bewusst gewählt: die Spezifikation besagt, dass sie <em>entweder</em> mit einem Künstlernamen (artist) <em>oder</em> einer Musicbrainz-ID aufgerufen werden kann. Dies haben wir hier nicht abgebildet, können wir aber gut und gerne dem Nutzer überlassen oder eben nachholen, indem wir zwei verschiedene Methoden definieren:</p>
<pre>Methode M1   = (artist.getInfo, GET, (artist, true), (username, false), (lang, false))
Methode M2   = (artist.getInfo, GET, (mbid, true), (username, false), (lang, false))</pre>
<p>Wir können jede Operation, die ein WebService bietet, so aufschreiben &#8211; und viel wichtiger: wir können dies in jeder objektorientierten Sprache sehr einfach implementieren. Ein paar Konventionen zur Schreibweise sind jedoch noch nötig:</p>
<ul>
<li>Methodenaufruf:
<pre>Aufruf A = M(P1 -&gt; V1, P2 -&gt; V2, ...)</pre>
<p>Der Parameter P1 wird mit V1 belegt, usw&#8230; z.B. für artist.getInfo (s.o.):</p>
<pre>Aufruf A1 = M1(artist -&gt; Kasabian, username -&gt; xschemer, lang -&gt; de)</pre>
<p>Die Reihenfolge der Parameter ist unerheblich.</li>
<li>Methodenaufruf ohne Parameterzuordnung:
<pre>Aufruf A = M(V1, V2, V3, ...)</pre>
<p>V entspricht dem ersten in der Definition angegebenen Parameter, usw&#8230; Semantisch identisch zum obigen Beispiel:</p>
<pre>Aufruf M1(Kasabian, xschemer, de)</pre>
</li>
</ul>
<p>Die Definition eines APIs haben wir erledigt, den Methodenaufruf spezifiziert. Aber was machen wir nun damit?</p>
<h2>Request, Response &amp; Codec</h2>
<p>Ein WebService kann mit einer Methode erst etwas anfangen, wenn sie in dem Format aufgerufen wird, dass er versteht. Für Last.FM muss z.B. immer ein &#8220;method&#8221;-Parameter übergeben werden, der den Namen enthält, zusätzlich noch der API-Key, evtl. eine Session und eine Signatur.</p>
<p>Damit wir einen Aufruf in das richtige Format bringen können, brauchen wir einen sog. Codec, also einen <em>Umwandler</em>. Er nimmt einen Methodenaufruf und produziert daraus die URL, an die eine Anfrage geschickt wird, sowie die Daten, die gesendet werden. Ebenso verarbeitet er die Antwort des Servers zu einem standardisierten Objekt (Accessor), das weiter unten beschrieben ist. Im Prinzip handelt es sich also nur um zwei separate Funktionen, konkretisiert:</p>
<pre>Request  Rq = (URL, Daten)
Response Rp = (Request, Daten)
Codec    C  = (Encoder, Decoder)
Encoder  E  = Funktion: Aufruf -&gt; Request
Decoder  D  = Funktion: Response -&gt; Accessor</pre>
<p>Wenn wir hier aufhören, haben wir folgenden Datenfluss:</p>
<pre>User -&gt; Codec -&gt; Encoder -&gt; WebService -&gt; Decoder -&gt; Codec -&gt; User</pre>
<p>Was uns immer noch fehlt ist eine Überprüfung, ob zumindest alle benötigten Parameter vorhanden sind. Zwar könnte man diese in den Encoder packen, doch das sollte nicht dessen Aufgabe sein, schließlich müsste er dafür alle Methoden kennen, was schlicht und einfach keinen Sinn macht.</p>
<h2>Apitizer &#8211; Wächter der Methoden</h2>
<p>Diese Verwaltung wird also in ein neues Objekt verlagert, den <strong>Apitizer</strong>. Er übernimmt die folgenden Aufgaben:</p>
<ul>
<li>Speicherung aller verfügbaren Methoden,</li>
<li>Verwaltung genau <span style="text-decoration: underline;">eines</span> Codecs,</li>
<li>Auswahl der passenden Methode zu einem Name-Parameterliste-Paar,</li>
<li>sowie Überprüfung von Parameterlisten auf Vollständigkeit.</li>
</ul>
<p>Jede Kommunikation eines Users mit dem API sollte über den Apitizer laufen, nicht direkt über Encoder und Decoder! Das folgende Bild soll das nochmals verdeutlichen:</p>
<p><a href="http://dev.xscheme.de/wp-content/uploads/2010/03/Apitizer.png"><img class="aligncenter size-full wp-image-984" style="margin: 0.5em; border: solid 1px #ddd; padding: 0.5em;" title="Apitizer" src="http://dev.xscheme.de/wp-content/uploads/2010/03/Apitizer.png" alt="" width="644" height="444" /></a></p>
<p>Was man hier auch sieht, ist die Möglichkeit, des Encoders/Decoders auf externe Daten zurückzugreifen, z.B. den API-Key bei Last.FM. Aber nun erstmal zum wohl wichtigsten Teil dieses Konzepts, den Accessor.</p>
<h2>Accessor</h2>
<p>Wenn wir eine Antwort bekommen, interessieren uns bestimmte Teile davon. Allerdings existieren unterschiedliche Formate, unterschiedliche Strukturen. Es gilt also, diese auf ein einfaches Konzept zurückzuführen.</p>
<p>Betrachten wir die grundsätzlichen Arten von Daten, die es gibt:</p>
<ul>
<li>einzelne Werte,</li>
<li>Mengen von Werten,</li>
<li>Zusammengesetzte Strukturen,</li>
<li>sowie Mengen von zusammengesetzten Strukturen.</li>
</ul>
<p>Definieren wir diese folgendermaßen:</p>
<pre>Wert    V  = String | List | Struct
List    L  = (Wert, Wert, ...)
Struct  S  = (Mapping, Mapping, ...)
Mapping Mp = String -&gt; Wert</pre>
<p>In Worten: ein Wert ist entweder ein String, eine Liste oder eine Struktur; eine Liste ist eine Menge von Werten und eine Struktur ist eine Menge von Zuordnungen von Strings zu Werten. Letzteres entspricht den Attributen eines Objekts. (z.B. kann die Struktur &#8220;Rechteck&#8221; eine Zuordnung &#8220;Höhe&#8221; -&gt; &#8220;10&#8243; besitzen)</p>
<p>Ein Accessor bildet nun beliebige Daten mithilfe von <em>Regeln</em> auf die eben besprochenen Einheiten ab:</p>
<pre>Regel          Rl = (AccessMapping1, AccessMapping2, ...)
AccessMapping  AM = (Attributname, Transformation, Regel)
Transformation T  = Funktion: Daten -&gt; Daten[]
Accessor       Ac = (Daten, Regel)</pre>
<p>Der Accessor muss in der Lage sein, die folgenden Operationen auszuführen:</p>
<ul>
<li>das passende Mapping zu einem Attributnamen finden,</li>
<li>den aktuellen Daten-Wert als String ausgeben,</li>
<li>einen Accessor erstellen, der einem Attribut entspricht,</li>
<li>eine Menge von Accessors erstellen, die einer Menge von Attribut-Werten entspricht.</li>
</ul>
<p>Und wieder wird definiert (das ist keine besondere Beschreibungssprache, nur Pseudo-Code):</p>
<pre>Accessor.map(attribut)  -&gt; AccessMapping
Accessor.value()        -&gt; (String) Accessor.Daten
Accessor.get(attribut)  -&gt; Accessor.all().firstElement
Accessor.all(attribut)  -&gt;
    m = Accessor.map(attribut);
    d = m.Transformation(Accessor.Daten);
    Array for all d[n]: new Accessor(d[n], m.Regel)</pre>
<p>Es wird Zeit für ein Beispiel. Und da XML mein Hauptanliegen ist, sollte ich es wohl auch verwenden.</p>
<h2>Beispiel: XML Accessor</h2>
<p>Auf XML-Daten kann mithilfe von XPath zugegriffen werden und dies kann man wunderbar nutzen. Nehmen wir das folgende Dokument:</p>
<pre>&lt;fruitbasket&gt;
  &lt;count&gt;2&lt;/count&gt;
  &lt;fruit&gt;
    &lt;name&gt;Apple&lt;/name&gt;
    &lt;color&gt;red&lt;/color&gt;
  &lt;/fruit&gt;
  &lt;fruit&gt;
    &lt;name&gt;Orange&lt;/name&gt;
    &lt;color&gt;orange&lt;/color&gt;
  &lt;/fruit&gt;
&lt;/fruitbasket&gt;</pre>
<p>Wir können nun Regeln definieren, wobei wir davon ausgehen, dass Transformationen eindeutig durch einen XPath-Ausdruck bestimmt sind und auf dem Wurzelknoten des übergebenen Dokuments arbeiten, z.B. lässt sich auf die Anzahl der Früchte ausgehend vom Wurzelnoten &#8220;fruitbasket&#8221; mittels &#8220;count&#8221; zugreifen:</p>
<pre>Regel Fruitbasket = (
  ("Count", xpath: "count", None),
  ("Fruits", xpath: "fruit", Fruit)
)

Regel Fruit = (
  ("Name", xpath: "name", None),
  ("Color", xpath: "color", None)
)</pre>
<p>Diese Regeln müssen irgendwo im Decoder definiert sein, ebenso eine Zuordnung Methodenname -&gt; Regel, damit der Decoder weiß, für welche Methode er welche Regel verwenden soll. Ein Accessor, der das oben beschriebene Dokument (abgekürzt als FRUITDOC) repräsentiert wäre also:</p>
<pre>Accessor MyBasket = (FRUITDOC, Fruitbasket)</pre>
<p>Wenn man nun die Methode &#8220;all&#8221; für das Attribut &#8220;Fruits&#8221; aufruft, wird der Accessor feststellen, dass dies dem AccessMapping (&#8220;Fruits&#8221;, xpath: &#8220;fruit&#8221;, Fruit) entspricht. Er wendet also die Transformation auf das Dokument an (findet also alle Knoten, die dem XPath-Ausdruck &#8220;fruit&#8221; entsprechen) und erstellt mithilfe der gegebenen Regel Fruit neue Accessors. Das Ergebnis wäre also:</p>
<pre>MyBasket.all("Fruits") = [
  Accessor("&lt;fruit&gt;&lt;name&gt;Apple&lt;/name&gt;...", Fruit),
  Accessor("&lt;fruit&gt;&lt;name&gt;Orange&lt;/name&gt;...", Fruit)
]</pre>
<p>Führen wir nun &#8220;get&#8221; für das Attribut &#8220;Color&#8221; des ersten Ergebnisses (nennen wir es E1) aus, erhalten wir das AccessMapping (&#8220;Color&#8221;, xpath: &#8220;color&#8221;, None). Eine Auswertung des XPath-Ausdrucks liefert hier genau einen Knoten, aus dem der neue Accessor V1 erstellt wird:</p>
<pre>V1 = E1.get("Color") = Accessor("&lt;color&gt;red&lt;/color&gt;", None)</pre>
<p>Und hier können wir den Wert auslesen:</p>
<pre>V1.value() = "red"</pre>
<p>Das gleiche Ergebnis würde übrigens der folgende Ausdruck liefern:</p>
<pre>MyBasket.get("Fruits").get("Color").value()</pre>
<p>Soviel zu Accessors.</p>
<h2>Warum? Warum? Warum?!</h2>
<p>Wie anfangs (und das ist lange her) erwähnt, arbeite ich an meiner Version des Last.FM-APIs auf Basis dieses Konzepts. Dieses wiederum wird die Basis für neue Versionen von LastSharp und LeSharp sein, wobei ich v.a. für ersteres Programm grundlegende Änderungen angedacht habe. (Multiuser-Support mit mehreren Downloads, Anhören und Downloaden gleichzeitig, &#8230;)</p>
<p>Es hat also schon alles seinen Sinn. Danke fürs Zuhören.</p>
<div id="_mcePaste" style="position: absolute; left: -10000px; top: 2863px; width: 1px; height: 1px; overflow: hidden;">
<pre>Attributname : String, Transformation, Unterregel</pre>
</div>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2010/03/concept-generischer-api-zugriff/feed/</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>nginx = Wow!</title>
		<link>http://dev.xscheme.de/2010/02/nginx-wow/</link>
		<comments>http://dev.xscheme.de/2010/02/nginx-wow/#comments</comments>
		<pubDate>Wed, 03 Feb 2010 15:11:17 +0000</pubDate>
		<dc:creator>xsc</dc:creator>
				<category><![CDATA[Web]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=976</guid>
		<description><![CDATA[Nachdem ich ja diese Woche mit meinem Blog den Hoster gewechselt habe, stand ich vor einem kleinen Problem: der vServer, den ich mir angemietet habe, schien zeitweise extrem instabil, hing manchmal fest und tat gar nichts mehr.
Eine kleine Analyse brachte das Problem zutage: der installierte Apache 2 Server fraß die Resourcen auf, anscheinend beim Versuch, [...]]]></description>
			<content:encoded><![CDATA[<p>Nachdem ich ja diese Woche mit meinem Blog den Hoster gewechselt habe, stand ich vor einem kleinen Problem: der vServer, den ich mir angemietet habe, schien zeitweise extrem instabil, hing manchmal fest und tat gar nichts mehr.</p>
<p>Eine kleine Analyse brachte das Problem zutage: der installierte <strong>Apache 2</strong> Server fraß die Resourcen auf, anscheinend beim Versuch, sich mit der MySQL-Datenbank (die ich zwecks einfacher Weiterbetreibung dieses Blogs behalten habe) zu verbinden. Und egal, wo ich an der Konfiguration herumgeschraubt habe, es hat nichts gebracht.</p>
<p>Also bin ich einen anderen Weg gegangen: ein neuer Webserver musste her. Und hierbei fiel mein Auge auf <strong>nginx (Engine X)</strong>. (<a href="http://nginx.org/">Homepage</a>) Eine kurze <a href="http://www.howtoforge.com/installing-nginx-with-php5-and-mysql-support-on-debian-lenny">Installation</a> und eine unglaublich einfach zu erledigende Konfiguration später, lief er dann auch schon. Und siehe da: keine Abstürze, keine langen Wartezeiten. Einfach Wow!</p>
<p><del datetime="2010-02-04T08:52:46+00:00">Jetzt muss ich nur noch <a href="http://cakephp.org/">cakePHP</a> zum Laufen bekommen, dann wäre die Welt perfekt&#8230;</del> Läuft.</p>
<p><span id="more-976"></span>Oh, noch nebenbei die Konfiguration für diesen Wordpress-Blog, falls jemand auf der Suche nach den Rewrite-Rules sein sollte (nginx unterstützt keine .htaccess Dateien):</p>
<pre>server {
	listen 80;
	server_name dev.xscheme.de;

	location / {
		root [...];
		index index.php;
		if (!-e $request_filename) {
			rewrite ^ /index.php last;
		}
	}
	...
}
</pre>
<p>Wo genau ich das gefunden habe, weiß ich jetzt auch nicht mehr&#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2010/02/nginx-wow/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Umzug vollbracht</title>
		<link>http://dev.xscheme.de/2010/01/umzug-vollbracht/</link>
		<comments>http://dev.xscheme.de/2010/01/umzug-vollbracht/#comments</comments>
		<pubDate>Sun, 31 Jan 2010 01:07:21 +0000</pubDate>
		<dc:creator>xsc</dc:creator>
				<category><![CDATA[General]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/2010/01/umzug-vollbracht/</guid>
		<description><![CDATA[So, seit eben liegt diese Seite bei meinem neuen Hoster, der synergetic AG. Hat jetzt dann doch eine Woche gedauert, weil ich vergessen hatte, ein Formular an die DeNIC zu schicken. Shame on me&#8230;
Aber jetzt sollte wieder alles funktionieren. Wenn nicht, bitte bescheid sagen!
Update: Um das Forum kümmere ich mich morgen.
]]></description>
			<content:encoded><![CDATA[<p>So, seit eben liegt diese Seite bei meinem neuen Hoster, der <a href="http://www.synserver.de/">synergetic AG</a>. Hat jetzt dann doch eine Woche gedauert, weil ich vergessen hatte, ein Formular an die DeNIC zu schicken. Shame on me&#8230;</p>
<p>Aber jetzt sollte wieder alles funktionieren. Wenn nicht, bitte bescheid sagen!</p>
<p><strong>Update</strong>: Um das Forum kümmere ich mich morgen.</p>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2010/01/umzug-vollbracht/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>[Release] LeSharp 1.2.2</title>
		<link>http://dev.xscheme.de/2009/11/release-lesharp-1-2-2/</link>
		<comments>http://dev.xscheme.de/2009/11/release-lesharp-1-2-2/#comments</comments>
		<pubDate>Thu, 05 Nov 2009 19:51:58 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[LeSharp / Lea]]></category>
		<category><![CDATA[release]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/2009/11/971/</guid>
		<description><![CDATA[Heute habe ich (weil ich einfach vor Ewigkeiten vergessen habe, das zu machen) eine ausgebesserte Version von LeSharp online gestellt. Im Vorgänger hat Pico nicht mehr richtig funktioniert, aber die Tatsache, dass sich darüber niemand aufgeregt hat, nehme ich jetzt einfach mal positiv auf&#8230; Wenn weiter Probleme mit LeSharp bestehen, bitte melden!
Download:
https://sourceforge.net/projects/lastsharp/files/lesharp/LeSharp%201.2.2/LeSharp1.2.2.zip/download
]]></description>
			<content:encoded><![CDATA[<p>Heute habe ich (weil ich einfach vor Ewigkeiten vergessen habe, das zu machen) eine ausgebesserte Version von LeSharp online gestellt. Im Vorgänger hat Pico nicht mehr richtig funktioniert, aber die Tatsache, dass sich darüber niemand aufgeregt hat, nehme ich jetzt einfach mal positiv auf&#8230; Wenn weiter Probleme mit LeSharp bestehen, bitte melden!</p>
<p><strong>Download</strong>:<br />
<a href="https://sourceforge.net/projects/lastsharp/files/lesharp/LeSharp%201.2.2/LeSharp1.2.2.zip/download">https://sourceforge.net/projects/lastsharp/files/lesharp/LeSharp%201.2.2/LeSharp1.2.2.zip/download</a></p>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/11/release-lesharp-1-2-2/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>Aktuelle Situation: Stress.</title>
		<link>http://dev.xscheme.de/2009/10/aktuelle-situation-stress/</link>
		<comments>http://dev.xscheme.de/2009/10/aktuelle-situation-stress/#comments</comments>
		<pubDate>Thu, 01 Oct 2009 20:05:25 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[General]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=966</guid>
		<description><![CDATA[Ich möchte diesen Artikel nutzen, um kurz meine aktuelle Situation zu beschreiben und mich im Zuge dessen dafür zu entschuldigen, dass ich diese Seite und meine Projekte im Moment eher ruhen lasse.
Zum einen bin ich letzten Samstag umgezogen (der klassische Studentenweg: von Zuhause weg und in eine 2er-WG) und da jetzt dann doch ziemlich eingebunden. [...]]]></description>
			<content:encoded><![CDATA[<p>Ich möchte diesen Artikel nutzen, um kurz meine aktuelle Situation zu beschreiben und mich im Zuge dessen dafür zu entschuldigen, dass ich diese Seite und meine Projekte im Moment eher ruhen lasse.</p>
<p>Zum einen bin ich letzten Samstag umgezogen (der klassische Studentenweg: von Zuhause weg und in eine 2er-WG) und da jetzt dann doch ziemlich eingebunden. Ich hab noch nichtmal ein Bett&#8230; (Lieferzeit: 3 Wochen)</p>
<p>Seit September arbeite ich zudem als Werkstudent bei <a href="http://o2online.de/">Telefonica O<sub>2</sub> Germany</a>. Die 20h-Woche ist jetzt vielleicht nicht sooo auslastend, aber es summiert sich dann doch.</p>
<p>Zuguterletzt geht dann demnächst auch die Uni wieder los, was mein Pensum dann auf 50h die Woche erhöht. Aber mei, wir sind jung &#8211; wenn wir jetzt sowas nicht packen, wann dann?</p>
<p>Jedenfalls werde ich alle offenen Kommentare beantworten, sobald ich Zeit habe. Ebenso wird es dann neue Versionen der einzelnen Programme geben. Danke für&#8217;s Verständnis!</p>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/10/aktuelle-situation-stress/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Scripe. Oder: Warum eine Scriptsprache auch nur eine Suppe ist.</title>
		<link>http://dev.xscheme.de/2009/09/scripe-eigene-scriptsprache-ganz-einfach/</link>
		<comments>http://dev.xscheme.de/2009/09/scripe-eigene-scriptsprache-ganz-einfach/#comments</comments>
		<pubDate>Wed, 02 Sep 2009 20:40:33 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[C#]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Software]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=962</guid>
		<description><![CDATA[Es ist wohl aufgefallen, ich erwähne es trotzdem: Seit einiger Zeit arbeite ich an einem Prinzip, dass es jedem Interessierten ermöglichen soll, eine eigene Script- oder Programmiersprache zu entwerfen. Meine theoretischen Überlegungen, so langweilig sie auch manches Mal seien mögen, habe ich in einer Reihe von Artikeln festgehalten; damit ich diese Texte aber auch schreiben [...]]]></description>
			<content:encoded><![CDATA[<p>Es ist wohl aufgefallen, ich erwähne es trotzdem: Seit <a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">einiger Zeit</a> arbeite ich an einem Prinzip, dass es jedem Interessierten ermöglichen soll, eine eigene Script- oder Programmiersprache zu entwerfen. Meine theoretischen Überlegungen, so langweilig sie auch manches Mal seien mögen, habe ich in einer <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Reihe</a> <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/">von</a> <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/">Artikeln</a> festgehalten; damit ich diese Texte aber auch schreiben konnte, musste ich immer ein kleines Stückchen vorausdenken und einiges an implementierungstechnischer Vorarbeit leisten.</p>
<p>Und heute war ich dann soweit, dass ich eine gar nicht so üble Version vor mir hatte, die ich nun (nicht detailliert, eher angeberischerweise <img src='http://dev.xscheme.de/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' />  ) präsentieren will. Vorhang auf für <strong>Scripe</strong>!</p>
<p><span id="more-962"></span></p>
<p>(Der Name hat mehrere Hintergründe: zum einen wäre da der Schreibfehler, der schonmal beim Wort &#8220;Scripte&#8221; auftaucht, zum anderen findet sich ein Ursprung im englischen &#8220;to scribe&#8221;, was soviel wie &#8220;vorzeichnen&#8221; bedeutet. Zuguterletzt sagt einem das allwissende <a href="http://www.urbandictionary.com/define.php?term=scripe">Urban Dictionary</a>, das &#8220;scripe&#8221; das Äquivalent von &#8220;a load of rubbish&#8221;, also etwas nicht ganz hochwertigem ist. Das ist auch in Ordnung so: Scripe ist der Weg, den ich einschlagen würde, wenn ich eine Scriptsprache zu entwickeln hätte. Zwar sind Grundkonzepte, die sich auch im professionelleren Einsatz finden, vorhanden, aber Scripe erhebt in dieser Hinsicht keinerlei Anspruch auf Vollständigkeit oder übermäßige Effizienz. &#8220;Quick and Dirty&#8221; wäre dennoch übertrieben, dann doch eher &#8220;<strong>Quick and Not-So-Clean</strong>&#8220;&#8230;)</p>
<p>Die Suppe im Titel lässt das Prinzip erahnen: Suppen brauchen Gewürze, um zu schmecken, und hierbei ist es wichtig auf die Mischung zu achten. Ebenso wird jeder seine Suppe anders würzen, je nach Vorlieben oder Vorhaben. Eine Scriptsprache ist da nicht anders: hier eine Prise Variablenverwaltung, dort ein Löffel Arithmetik. Voilà.</p>
<p>Dieses Suppenprinzip findet man heutzutage überall, hauptsächlich in der Unix/Linux-Welt, wo man je nach Bedarf auf einfachste Art und Weise ein Paket nachladen kann und das Gesamtsystem somit bis ins letzte Eck modifizierbar bleibt. <strong>Auch Scripe verwendet solche Pakete, allerdings eben für die Features der Programmiersprache!</strong></p>
<p>Folgender C#-Code erzeugt einen Prozessor, der den <a href="http://en.wikipedia.org/wiki/Shunting_yard_algorithm">Shunting-Yard-Algorithmus</a> verwendet, um die Eingabe zu parsen. Anschließend erhält er vier Pakete: eines für arithmetische Operationen, eines für String-Operationen, eines für Ein- und Ausgabe, und eines für Variablendefinition und -verwaltung. Anschließend wird eine Eingabe-Auswertungs-Schleife gestartet.</p>
<pre>// Create processor
Processor p = new Processor(
    new ShuntingYardAlgorithm()
);

// Add packages
p.AddPackage(new Scripe.Evaluators.Arithmetic.ArithmeticPackage(true));
p.AddPackage(new Scripe.Evaluators.Strings.StringPackage("&amp;", "$"));
p.AddPackage(new Lapicon.Evaluators.InputOutput.InputOutputPackage());
p.AddPackage(new Lapicon.Evaluators.Variables.VariablePackage());

// Empty codebase
Codebase c = new Codebase(new Scripe.Env.Environment());

// Read-Eval-Print-Loop
string r = "";
while (true)
{
    try
    {
        Console.Write("Calc: ");
        if ((r = Console.ReadLine()) == "exit") break;
        c.Add(r);
        Console.WriteLine(" ==&gt; " + c.Execute(p).ReturnValue);
    }
    catch (Exception ex)
    {
        Console.WriteLine(" ERROR: " + ex.Message);
    }
}</pre>
<p>In nur 5 Zeilen haben wir hier (mithilfe der Scripe-internen und zweier für Lapicon geschriebenen Pakete) einen Prozessor geschaffen, der jede der folgenden Eingaben auswerten kann:</p>
<pre>1+(4-6)*(3-4^5)+e
def variable = 7*8
def variableDurchZwei = &lt;variable&gt;/2
echo "(7*8)/2 = " &amp; $(&lt;variableDurchZwei&gt;)</pre>
<p>Und nun stelle man sich eine Internetseite vor, die eine gewisse Anzahl solcher Pakete anbietet. <strong>Scriptsprachen entwickeln einfach gemacht</strong>.</p>
<p>Soviel also von mir. Wann Scripe letztlich ganz fertig ist (und ich mich wieder den anderen Projekten wie LastSharp widmen kann), kann ich nur schätzen. Ist ein Monat in Ordnung? <img src='http://dev.xscheme.de/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/09/scripe-eigene-scriptsprache-ganz-einfach/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Wie entwickle ich meine eigene Scriptsprache? (Teil 3: Syntax)</title>
		<link>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/</link>
		<comments>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/#comments</comments>
		<pubDate>Sun, 30 Aug 2009 11:26:44 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[HowTo]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Theorie]]></category>
		<category><![CDATA[eigene programmiersprache]]></category>
		<category><![CDATA[eigene scriptsprache]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=952</guid>
		<description><![CDATA[Nun, wie weit sind wir bisher? Wir haben einen Lexer, der unsere Eingabe in Einzelteile spaltet, und wir können einfache Ausdrücke in eine verwertbare Form bringen. Was wir bisher noch nicht (bewusst) gemacht haben, ist, einen Ausdruck zu analysieren und zu prüfen, ob er sinnvoll ist oder nur unzusammenhängend aneinandergereihte Token enthält.
Zur Erinnerung: sowohl &#8220;1+2+3&#8243; [...]]]></description>
			<content:encoded><![CDATA[<p>Nun, wie weit sind wir <a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">bisher</a>? Wir haben einen <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Lexer</a>, der unsere Eingabe in Einzelteile spaltet, und wir können einfache Ausdrücke <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/">in eine verwertbare Form bringen</a>. Was wir bisher noch nicht (bewusst) gemacht haben, ist, einen Ausdruck zu analysieren und zu prüfen, ob er sinnvoll ist oder nur unzusammenhängend aneinandergereihte Token enthält.</p>
<p>Zur Erinnerung: sowohl &#8220;1+2+3&#8243; als auch &#8220;1+(&#8221; wären Zeichenfolgen, die der Lexer akzeptieren und ohne zu meckern zerkleinern würde. Das ist auch in Ordnung so, da die <strong>syntaktische Prüfung</strong> ohnehin eher Aufgabe des Parsers ist. Aber was genau gilt es denn dabei zu beachten?</p>
<h2>&#8220;Syntaxfragen&#8221;</h2>
<ul>
<li>Sind genau so viele öffnende wie schließende Klammern vorhanden und passen diese zusammen?</li>
<li>Stimmt die Zahl der Parameter, mit der eine Funktion aufgerufen wird?</li>
<li>Stimmen die Parametertypen, mit denen eine Funktion aufgerufen wird? (&#8220;+&#8221; arbeitet normalerweise nur auf Zahlen, der Punkt z.B. in PHP auf Strings, etc&#8230;)</li>
<li>Befinden sich Operatoren an den richtigen Positionen? (Die Fakultät einer Zahl wird z.B. durch Anhängen eines Ausrufezeichens gekennzeichnet: &#8220;3!&#8221;)</li>
<li>Darf eine Funktion geschachtelt vorkommen? (z.B. wäre &#8220;echo(echo(1))&#8221; eher sinnlos, wenn &#8220;echo&#8221; die Ausgabefunktion ist)</li>
<li>Darf eine Funktion/ein Konstrukt in einer untergeordneten Umgebung vorkommen? (Das wäre z.B. der Fall, wenn man Funktionsdefinitionen innerhalb von Funktionsdefinitionen zulässt.)</li>
</ul>
<p>Neben der Syntax gibt es noch weitere Punkte, die eine Programmier-/Scriptsprache ausmachen. Eine Auflistung findet man z.B. <a href="http://www.pilgerer.org/pw/ProgrammierSprachen">hier</a>.</p>
<p><span id="more-952"></span></p>
<h2>Einiges ist schon erledigt</h2>
<p>Der im vorhergehenden Teil präsentierte Shunting-Yard-Algorithmus nimmt uns die Überprüfung der Klammern, sowie der Position der Parameter bereits ab. Des weiteren ist es unumgänglich zur Erstellung des Syntaxbaumes die Anzahl der Parameter zu kennen, die eine bestimmte Funktion benötigt. Wir können also unsere Liste auf die Hälfte kürzen.</p>
<h2>Einiges noch nicht</h2>
<p>Der Syntaxbaum selbst macht die Syntaxprüfung recht simpel. Aber zuerst müssen wir für jede Funktion, jeden Operator und jedes Terminalsymbol festlegen, welche syntaxktischen Eigenschaften es hat. Das wird letztlich mittels einer Klasse <em>SyntaxDefinition</em> realisiert werden, die die entsprechenden Daten kapselt.</p>
<p>Wichtig ist hierbei: wir betrachten all die genannten Datentypen als Funktionen, auch die Terminalsymbole. Jede Funktion hat einen Rückgabetyp und beliebig viele Parametertypvarianten. Eine &#8220;Zahl&#8221; wäre also eine Funktion mit dem Parametertyp &#8220;Zahl&#8221; und dem Rückgabetyp &#8220;Zahl&#8221;.</p>
<p>Eine beispielhafte Aufstellung für die Syntax einer Sprache wäre die folgende:</p>
<ul>
<li>Terminalsymbol <em>Integer</em>:
<ul>
<li>Eingabe: Integer</li>
<li>Rückgabe: Integer</li>
<li>Verschachtelung erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>Terminalsymbol <em>String</em>:
<ul>
<li>Eingabe: String</li>
<li>Rückgabe: String</li>
<li>Verschachtelung erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>Terminalsymbol <em>Identifier</em>:
<ul>
<li>Eingabe: Identifier</li>
<li>Rückgabe: Identifier</li>
<li>Verschachtelung erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>Funktion <em>DefConstant</em>:
<ul>
<li>Eingabe: (Identifier, Integer) oder (Identifier, String)</li>
<li>Rückgabe: keine</li>
<li>Verschachtelung nicht erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>Operator <em>Plus</em>:
<ul>
<li>Eingabe: (Integer, Integer)</li>
<li>Rückgabe: Integer</li>
<li>Verschachtelung erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>&#8230;</li>
</ul>
<p>Es gibt aber auch Funktionen, deren Rückgabetyp erst zum Ausführungszeitpunkt feststeht. Bestes Beispiel ist hier die Auswertung von Variablen, die ja Werte verschiedenster Typen enthalten können.</p>
<p>Wie würde also nun die Überprüfung der Typkorrektheit und der Verschachtelung ablaufen? Wie bereits erwähnt nutzen wir hierfür den Syntaxbaum und testen jeden einzelnen Knoten unter Berücksichtigung der Kindknoten:</p>
<pre>               operator : +
              /            \
        integer : 1     operator : *
                       /            \
                  integer : 2   function : echo
                                     |
                                constant : e</pre>
<p>Für unseren Test entspräche das dem folgenden Baum (Notation: &#8220;Rückgabe / Verschachtelung erlaubt?&#8221;):</p>
<pre>               integer / ja
              /            \
        integer / ja    integer / ja
                       /            \
                  integer / ja  void / nein
                                     |
                                runtime / ja</pre>
<p>Die Wurzel (das Plus) erwartet zwei Parameter des Typs &#8220;integer&#8221;. Eine Überprüfung der Kindknoten zeigt, dass diese genau diesen Rückgabetyp besitzen &#8211; also alles in Ordnung , auch die Verschachtelung.<br />
Betrachtet man den rechten Ast weiter, sieht man zwei Probleme: die Multiplikation benötigt zwei &#8220;integer&#8221;-Parameter, erhält aber &#8220;integer&#8221; und &#8220;void&#8221; (<em>void</em> ist der Ausdruck für &#8220;keine Rückgabe&#8221;); und die &#8220;echo&#8221;-Funktion kann nicht geschachtelt auftreten, befindet sich aber auf Ebene 2.</p>
<p>Einen dieser Fehler sollte der Parser letztlich ausgeben und abbrechen!</p>
<h2>Einiges muss warten</h2>
<p>Ob ein Ausdruck in einer untergeordneten Umgebung auftritt, kann ein reiner Parser nicht wissen. Man könnte ihm zwar diesbezügliche Informationen zukommen lassen (und sollte das auch, wenn man vorhat, einen Compiler o.Ä. zu schreiben), der einfachste Ort für diese Überprüfung ist jedoch die Auswertung. (Das ist auch scriptsprachentauglich.)</p>
<p>Was die Parametertypen angeht, die erst bei der Ausführung feststehen, kann man entweder mit regulären Ausdrücken arbeiten und mit deren Hilfe die Teilergebnisse untersuchen, bevor man die übergeordnete Funktion aufruft, oder man überlässt das ganz der jeweiligen Funktion selbst. Geschmacksache.</p>
<h2>Spezielle Konstrukte</h2>
<p>In jeder Sprache gibt es bestimmte Schlüsselwörter, die spezielle Konstrukte beschreiben/einleiten. Gemeint ist soetwas wie:</p>
<pre>def a = 2</pre>
<p>Der Shunting-Yard-Algorithmus kommt aber nur mit Operatoren oder mit Funktionen der Form &#8220;f(p1, p2, &#8230;)&#8221; klar.<strong> </strong></p>
<h3><strong>Kein großes Problem?</strong></h3>
<p>Gut, das wäre jetzt kein großes Problem für das oben stehende Beispiel: man definiert &#8220;def&#8221; und &#8220;=&#8221; als Operatoren, wobei &#8220;def&#8221; ein Präfix-Operator mit genau einem Parameter ist und eine höhere Priorität als &#8220;=&#8221; hat. Der Operator &#8220;def&#8221; legt eine leere Variable mit dem übergebenen Namen an und liefert diesen Namen als Rückgabewert.<br />
&#8220;=&#8221; wiederum ist ein Infix-Operator mit zwei Parametern, das die (existierende!) Variable des übergebenen Namens mit dem übergebenen Wert füllt.</p>
<p>Der Syntaxbaum für oben genannten Ausdruck wäre dann:</p>
<pre>              operator : =
              /          \
     operator : def   integer : 2
             |
     identifier : a</pre>
<p>Und schon hätten wir das  gewünschte Verhalten, allerdings auf Kosten der Übersichtlichkeit in der Implementierung, sowie eines sehr großen Freiraums in der Grammatik. Immerhin wäre so etwas dann auch erlaubt:</p>
<pre>(((((def a))))) = 2
def b = def a</pre>
<p>Ein Verhindern von Verschachtelungen ist hier nicht mehr möglich.</p>
<h3><strong>Bessere Lösung</strong></h3>
<p>Wir brauchen einen Mechanismus, der aus &#8220;def a = 2&#8243; so etwas macht wie &#8220;def(a, 2)&#8221;, also einen regulären Funktionsaufruf. Es handelt sich hierbei um eine Mustererkennung auf Basis bereits gelesener Token, d.h. die eigentliche Umwandlung findet nach dem erstmaligen Einlesen der Eingabesequenz durch den Lexer statt:</p>
<pre>keyword : def
identifier : a
operator : =
integer : 2</pre>
<p>wird zu</p>
<pre>function : def
open : (
identifier : a
comma : ,
integer : 2
close : )</pre>
<p>In meinen Augen bietet sich hierfür wieder  der in <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Teil 1</a> unter Alternative 4 vorgestellte Algorithmus an, der z.B. mit einem Automaten arbeiten könnte, der die folgende Akzeptanzfunktion besitzt (Vorsicht: Pseudocode!):</p>
<pre>private int tokenNumber = -1;
public bool accept(Token t)
{
    tokenNumber++;
    return
        (tokenNumber == 0 &amp;&amp; "t ist vom Typ 'keyword' und hat den Wert 'def'") ||
        (tokenNumber == 1 &amp;&amp; "t ist vom Typ 'identifier'") ||
        (tokenNumber == 2 &amp;&amp; "t ist vom Typ 'operator' und hat den Wert '='") ||
        tokenNumber &gt; 2;
}</pre>
<p>Gleichzeitig müssten irgendwo die relevanten Token gesichert werden, damit die Umwandlung in eine Funktion später auch reibungslos vonstatten gehen kann.</p>
<p>Ich würde sagen, damit haben wir eine vernünftige Lösung gefunden.</p>
<h2>Fazit</h2>
<p>Wir können nun unseren Syntaxbaum auf syntaktische Merkmale hin untersuchen und spezielle Ausdrücke und Konstrukte berücksichtigen. Langsam sollten wir uns also an die Ausführung eines Ausdrucks machen.</p>
<p>Ein in diesem Artikel häufig verwendetes Wort war &#8220;Umgebung&#8221;. Es handelt sich dabei um den Speicher für Variablen, Funktionen, etc&#8230; Ohne diesen ist die Entwicklung einer Scriptsprache relativ witzlos, weswegen wir an genau dieser Stelle weitermachen werden.</p>
<h2>Inhalt</h2>
<ol>
<li><a href="../2009/07/eigene-programmiersprache-scriptsprach/">Einführung: Ein Abenteuer in Teilen</a></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Der Lexer</a></li>
<li><a href="../2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/">Grundlagen des Parsens</a></li>
<li><strong>Syntax</strong></li>
</ol>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Wie entwickle ich meine eigene Scriptsprache? (Teil 2: Grundlagen des Parsens)</title>
		<link>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/</link>
		<comments>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/#comments</comments>
		<pubDate>Sat, 15 Aug 2009 13:51:46 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[HowTo]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Theorie]]></category>
		<category><![CDATA[eigene programmiersprache]]></category>
		<category><![CDATA[eigene scriptsprache]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=905</guid>
		<description><![CDATA[Einen wichtigen Schritt haben wir an dieser Stelle bereits hinter uns: Der hier beschriebene Lexer verwandelt eine Eingabesequenz wie &#8220;1+3*(4-2)&#8221;  in eine Liste von Tokens mit Typ und Wert:
zahl        :    1
operator    :    +
zahl       [...]]]></description>
			<content:encoded><![CDATA[<p>Einen wichtigen Schritt haben wir an dieser Stelle bereits hinter uns: Der <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">hier beschriebene</a> Lexer verwandelt eine Eingabesequenz wie &#8220;1+3*(4-2)&#8221;  in eine Liste von Tokens mit Typ und Wert:</p>
<pre>zahl        :    1
operator    :    +
zahl        :    3
operator    :    *
open        :    (
zahl        :    4
operator    :    -
zahl        :    2
close       :    )</pre>
<p>Damit haben wir eine maschinenlesbare Repräsentation des gewünschten Ausdrucks &#8211; allerdings keine Garantie dafür, dass dieser syntaktisch korrekt ist. Ebensowenig kann eine Maschine, die diese Liste nun vorgelegt bekommt, &#8220;einfach mal so&#8221; den Wert des Ausdrucks berechnen, da ihr Informationen zur Auswertungsreihenfolge fehlen. (Wenn 1+3 zuerst berechnet wird, lautet das Ergebnis 8, wenn 3*(4-2) zuerst berechnet wird, lautet es 7.)</p>
<p>Wir brauchen also eine Darstellung unseres Ausdrucks, die bezüglich der Reihenfolge der Auswertung eindeutig ist und eine Maschine, die diese erstellt  &#8211; und wie könnte es anders sein: auch dieses Problem wurde bereits einmal gelöst.</p>
<p>Wandeln wir also auf den Spuren von <a href="http://de.wikipedia.org/wiki/Edsger_Wybe_Dijkstra">Edsger W. Dijkstra</a>.</p>
<p><span id="more-905"></span></p>
<h2>Reverse Polish Notation</h2>
<p>Der polnische Mathematiker Jan Łukasiewicz entwickelte etwa 1920 die sog. <a href="http://en.wikipedia.org/wiki/Polish_notation">Polnische Notation</a> für arithmetische Ausdrücke, die sich dadurch auszeichnete, dass jedem Operator (&#8220;+&#8221;, &#8220;-&#8221;, &#8230;) direkt seine Operanden (Zahlen oder weitere arithmetische Ausdrücke) folgten. Durch diese Präfixnotation ergibt sich die Möglichkeit, auf Klammern, Kommas, etc&#8230; verzichten zu können, wenn man weiß, wie viele Operanden ein Operator benötigt:</p>
<pre>1+2+3         ==&gt;        + 1 + 2 3           (auch: + + 1 2 3)
1+3*(4-2)     ==&gt;        + 1 * 3 - 4 2
(3+4)*(4*3-1) ==&gt;        * + 3 4 - * 4 3 1</pre>
<p>Anhand des letzten Beispiels will ich die Auswertung so eines Ausdrucks beschreiben. Das Prinzip ist: &#8220;Werte den Ausdruck, der nur Zahlen als Operanden hat, als nächstes aus!&#8221;</p>
<pre>
<pre>   * + 3 4 - * 4 3 1        |   Das + bezieht sich auf 3 und 4!
=  * 7     - * 4 3 1        |   Das * bezieht sich auf 4 und 3!
=  * 7     - 12    1        |   Das - bezieht sich auf 12 und 1!
=  * 7     11               |   Das * bezieht sich auf 7 und 11!
=  77</pre>
</pre>
<p>Wie bereits erwähnt,<strong> funktioniert so eine Auswertung nur, wenn man weiß, wie viele Operanden/Parameter ein Operator/eine Funktion benötigt</strong>. Deswegen haben wir uns bei der Entwicklung des Lexers auch die Mühe gemacht, diese Information immer irgendwie bei der Hand zu haben.</p>
<p>Was Dijkstra nun gemacht hat, war, aus der Präfix- eine Postfixnotation zu machen, die sog. <a href="http://en.wikipedia.org/wiki/Reverse_Polish_notation">Reverse Polish Notation (RPN)</a>. Hier stehen nun alle Operanden <em>vor</em> dem Operator zu dem sie gehören:</p>
<pre>1+2+3         ==&gt;        1 2 3 + +          (auch: 1 2 + 3 +)
1+3*(4-2)     ==&gt;        1 3 4 2 - * +
(3+4)*(4*3-1) ==&gt;        3 4 + 4 3 * 1 - *</pre>
<p>Sowohl <em>Polish Notation</em> als auch <em>Reverse Polish Notation</em> beschreiben (unter der Voraussetzung, dass man die Anzahl der Parameter/Operanden kennt) eine <strong>eindeutige Auswertungsreihenfolge</strong>. Bei der letztlichen Auswertung ist die RPN aber ihrem Vorfahren in Bezug auf Speicherverbrauch und Verständlichkeit dann doch voraus. Die Regel: &#8220;Wenn ein Operator auftaucht, werte ihn aus!&#8221;</p>
<p>Wir benötigen hierbei einen <a href="http://de.wikipedia.org/wiki/Stapelspeicher">Stack</a>, der die Zwischenergebnisse speichert und der diese bei Auftreten eines Operators zur Berechnung zur Verfügung stellt.</p>
<pre>
<pre>----------------------------------------------------------------------------------
Eingabe            | Stack    |  Kommentar
----------------------------------------------------------------------------------
3 4 + 4 3 * 1 - *  |          |  Beginn des Algorithmus
4 + 4 3 * 1 - *    | 3        |  Zahl (3): auf den Stack!
+ 4 3 * 1 - *      | 3 4      |  Zahl (4): auf den Stack!
4 3 * 1 - *        | 7        |  Operator (+): hole 3 und 4, berechne, speichere
3 * 1 - *          | 7 4      |  Zahl (4): auf den Stack!
* 1 - *            | 7 4 3    |  Zahl (3): auf den Stack!
1 - *              | 7 12     |  Operator (*): hole 4 und 3, berechne, speichere
- *                | 7 12 1   |  Zahl (1): auf den Stack!
*                  | 7 11     |  Operator (-): hole 12 und 1, berechne, speichere
                   | 77       |  Operator (*): hole 7 und 11, berechne, speichere
                   | 77       |  Eingabe leer, Ergebnis auf Stack.</pre>
</pre>
<p>Dies umzusetzen ist kein großes Problem und spricht in jedem Fall für die <em>Reverse Polish Notation</em> als Darstellung eines auszuwertenden Ausdrucks. Und dann wäre da noch die kleine, aber feine Tatsache, dass es einen Algorithmus gibt, der die <strong>Umwandlung</strong> &#8220;normaler&#8221; (Infix-)Ausdrücke (à la &#8220;1+2*f(3)&#8221;) in diese Notation vornimmt.</p>
<h2>Der Shunting-Yard-Algorithmus</h2>
<p>Der <a href="http://en.wikipedia.org/wiki/Shunting_yard_algorithm">Shunting-Yard-Algorithmus</a> (zu deutsch: <em>Rangierbahnhofalgorithmus</em>) ist eine ebenfalls von Dijkstra entwickelte Methode zur Umwandlung von Infix-Ausdrücken in Postfix-Notation. Sein Name kommt daher, dass seine Funktionsweise den Abläufen in einem Rangierbahnhof entspricht: alle terminalen Symbole (z.B. Zahlen, Variablen, &#8230;) sind Waren und Güter, die von Zügen (den nichtterminalen Symbolen wie Operatoren und Funktionen) mitgenommen werden müssen.</p>
<p>Die folgende Animation zeigt (vereinfacht) das Prinzip des Algorithmus. Er basiert darauf, dass in der Zugwarteschlange immer der Zug mit der höchsten Priorität (in der Realität z.B. die Geschwindigkeit) ganz vorne steht. Will sich ein langsamerer Zug einreihen, müssen also zuerst alle schnelleren Züge losgefahren sein. (Jeder Zug kann beliebig viele Waren transportieren und nimmt beim Abfahren alle verfügbaren mit! Es kann also auch passieren, dass ein Zug leer losfährt.)</p>
<p>Übertragen auf die <em>Reverse Polish Notation</em>: <strong>Die Operationen mit der niedrigsten Priorität werden zuletzt ausgeführt, entsprechen also den langsamsten Zügen</strong>. Mit ein wenig Überlegung sieht man, dass der Algorithmus also genau das Ergebnis liefern wird, was wir haben wollen!</p>
<p style="text-align: center;"><img class="size-full wp-image-911 aligncenter" style="border: 1px solid #bbbbbb; padding: 1em;" title="shuntingyard" src="http://dev.xscheme.de/wp-content/uploads/2009/08/shuntingyard.gif" alt="shuntingyard" width="400" height="400" /></p>
<p style="text-align: left;">Die Waren-Schlange kann übrigens in der letztlichen Implementierung entfallen, wenn man alle Waren einfach direkt zum Ausgang schiebt und immer nur den Zug voranstellt, der sie mitnehmen soll.</p>
<p style="text-align: left;">Hinzu kommt noch die Behandlung von Klammern und Trennsymbolen (z.B Kommas). Ich möchte den Algorithmus hier nicht im Detail aufschreiben, da der zugehörige Wikipedia-Artikel (englisch) eine <a href="http://en.wikipedia.org/wiki/Shunting_yard_algorithm#The_algorithm_in_detail">genaue Beschreibung</a> enthält.</p>
<p style="text-align: left;">Wichtig ist:</p>
<ul>
<li>Der Algorithmus kann Operatoren, Terminalsymbole, Klammern, Trennzeichen und Funktionen verarbeiten, d.h. wenn wir spezielle Konstrukte haben (z.B. &#8220;def x=a*(b-1)&#8221;) müssen wir diese erst in Funktionsform bringen. (z.B. &#8220;definition(x, a*(b-1))&#8221;)</li>
<li>Der Algorithmus hat eine Laufzeit in <strong>O(n)</strong>, d.h. er ist vergleichsweise effizient.</li>
</ul>
<h2>Reverse Polish Notation vs. Syntaxbaum</h2>
<p>Eine weitere Möglichkeit, die Ausführungsreihenfolge eindeutig festzulegen, ist das Erstellen eines Syntaxbaumes. Für den Ausdruck &#8220;1+2*sqrt(e)&#8221; hat dieser z.B. die folgende Form:</p>
<pre>               operator : +
              /            \
        integer : 1     operator : *
                       /            \
                  integer : 2   function : sqrt
                                     |
                                constant : e</pre>
<p>Die Auswertung erfolgt von unten nach oben, d.h. bei der letztlichen Berechnung würden folgende Schritte ausgeführt:</p>
<pre>e                 =&gt; 2.71
sqrt(2.71)        =&gt; 1.65
2                 =&gt; 2
2 * 1.65          =&gt; 3.3
1                 =&gt; 1
1 + 3.3           =&gt; 4.3</pre>
<p><strong>Das besondere ist, das jeder Syntaxbaum sehr einfach in <em>Reverse Polish Notation</em> umgewandelt werden kann und jede RPN ebenso einfach in einen Syntaxbaum. </strong></p>
<p>Für erstere Umwandlung durchläuft man den Baum als <em>Post-Order-Traversierung</em>, d.h. man schreibt ausgehend von der Wurzel zuerst die <em>Post-Order-Notation</em> der Kindknoten auf und hängt anschließend den Wert der Wurzel daran an.</p>
<p>Für die entgegensetzte Transformation tut man so, als würde man die RPN-Notation auswerten (siehe oben!), aber anstatt auf dem Stack Zwischenergebnisse zu speichern, sichert man dort die Teilbäume:</p>
<pre>
<pre>-----------------------------------------------------------------------------------
Eingabe            | Stack           |  Kommentar
-----------------------------------------------------------------------------------
3 4 + 4 3 * 1 - *  |                     |  Beginn des Algorithmus
4 + 4 3 * 1 - *    | 3                   |  Zahl (3): <span style="text-decoration: underline;">Blatt</span> auf den Stack!
+ 4 3 * 1 - *      | 3 4                 |  Zahl (4): Blatt auf den Stack!
4 3 * 1 - *        | +(3,4)              |  Operator (+): hole Blätter, bilde Baum
3 * 1 - *          | +(3,4) 4            |  Zahl (4): Blatt auf den Stack!
* 1 - *            | +(3,4) 4 3          |  Zahl (3): Blatt auf den Stack!
1 - *              | +(3,4) *(4,3)       |  Operator (*): hole Blätter, bilde Baum
- *                | +(3,4) *(4,3) 1     |  Zahl (1): Blatt auf den Stack!
*                  | +(3,4) -(*(4,3), 1) |  Operator (-): hole Blatt/Teilbaum, bilde Baum
[...]

Ergebnis: *(+(3,4), -(*(4,3), 1))</pre>
</pre>
<p>Ich hoffe die Baumnotation &#8220;Wurzel(Teilbaum1, Teilbaum2, &#8230;)&#8221; ist verständlich.</p>
<p>Es gibt hierzu noch eine weitere wichtige Anmerkung:<br />
<strong>Jeder Algorithmus, der die <em>Reverse Polish Notation</em> eines Ausdrucks erstellen kann, kann so modifiziert werden, dass er einen Syntaxbaum erstellt und jeder Algorithmus, der einen Syntaxbaum erstellt, kann auch die RPN eines Ausdrucks erstellen!</strong></p>
<p>Beide Darstellungen sind also gleichwertig in der Funktionalität, der Syntaxbaum benötigt jedoch mehr Speicherplatz, außerdem ist eine Auswertung des Baumes auf rekursivem Weg ebenfalls nicht gerade resourcenschonend.</p>
<h2>Fazit</h2>
<p>Auch wenn die <em>Reverse Polish Notation</em> eines Ausdrucks Verarbeitungsvorteile mit sich bringt, erschwert sie die Untersuchung der Eingabe auf syntaktische Korrektheit (vor allem Typkorrektheit!). Unser Parser muss also intern einen Syntaxbaum erstellen, diesen überprüfen und anschließend die RPN des Ausdrucks ausgeben. Damit dürften wir auf der sicheren Seite sein.</p>
<p>Nur: Was ist eigentlich Syntax?</p>
<h2>Inhalt</h2>
<ol>
<li><a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">Einführung: Ein Abenteuer in Teilen</a></li>
<li><a href="../2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Der Lexer</a></li>
<li><strong>Grundlagen des Parsens</strong></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/">Syntax</a><strong><br />
</strong></li>
</ol>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Wie entwickle ich meine eigene Scriptsprache? (Teil 1: Der Lexer)</title>
		<link>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/</link>
		<comments>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/#comments</comments>
		<pubDate>Tue, 11 Aug 2009 18:55:07 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[HowTo]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Theorie]]></category>
		<category><![CDATA[eigene programmiersprache]]></category>
		<category><![CDATA[eigene scriptsprache]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=889</guid>
		<description><![CDATA[Die Aufgabe, die ich mir hier gestellt habe, eine eigene Script- oder Programmiersprache zu entwickeln, bringt so ihre Probleme mit sich. Wie und wo fange ich an? Ist das nicht zu viel für mich? Und sollte ich nicht auf bereits vorhandene Bibliotheken zurückgreifen, anstatt alles von Grund auf neu zu entwickeln?
Vor allem die letzte Frage [...]]]></description>
			<content:encoded><![CDATA[<p>Die Aufgabe, die ich mir <a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">hier</a> gestellt habe, eine <strong>eigene Script- oder Programmiersprache</strong> zu entwickeln, bringt so ihre Probleme mit sich. Wie und wo fange ich an? Ist das nicht zu viel für mich? Und sollte ich nicht auf bereits vorhandene Bibliotheken zurückgreifen, anstatt alles von Grund auf neu zu entwickeln?</p>
<p>Vor allem die letzte Frage kann einem zu schaffen machen. Warum etwas möglicherweise nicht gut funktionierendes entwickeln, wenn es doch überall schon tausendfach durchdachte Lösungen gibt? Immerhin lautet doch eine der obersten Regeln in der Softwareentwicklung:</p>
<blockquote><p>Don&#8217;t reinvent the wheel!</p></blockquote>
<p>Nun, ich bin Informatikstudent. Ich will wissen, wie die Dinge &#8220;unter der Haube&#8221; aussehen, ich will lernen. Und wenn alle nur noch auf vorgefertige Bibliotheken zurückgreifen, weiß doch bald keiner mehr, was dem Zauber eigentlich zugrunde liegt&#8230; <a href="http://www.codinghorror.com/blog/archives/001145.html">Dementsprechend</a>:</p>
<blockquote><p><strong>Don&#8217;t reinvent the wheel, unless you plan on learning more about wheels!</strong></p></blockquote>
<p>Diese Anleitung soll jedem helfen, der interessiert daran ist, was im Inneren eines Interpreters oder Compilers eigentlich (ungefähr so) abläuft. Ich selbst habe gerade erst das zweite Semester hinter mir, d.h. allzu theoretisch wird es hier nicht und jeder mit ein wenig logischem Denken und genug Engagement sollte es hinbekommen, meinen Ausführungen zu folgen.</p>
<p>Lasset uns beginnen. <img src='http://dev.xscheme.de/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
<p><span id="more-889"></span></p>
<h2>Der Lexer</h2>
<p>Ein <a href="http://de.wikipedia.org/wiki/Lexikalischer_Scanner">lexikalischer Scanner</a> (kurz: <em>Lexer</em>) ist eine &#8220;Maschine&#8221;, die eine Zeichenfolge als Eingabe erhält und diese in kleinere Teile spaltet, denen eine bestimmte Bedeutung/ein bestimmter Typ zugrunde liegt.</p>
<p>Ein Taschenrechner, beispielsweise, kennt Zahlen, Operatoren und Klammern. Gibt man dem Lexer dieses Taschenrechners nun die Folge &#8220;1+2*(4-3)&#8221; zur Verarbeitung, wird daraus die folgende (oder eine ähnliche) Liste:</p>
<pre>zahl        :    1
operator    :    +
zahl        :    2
operator    :    *
open        :    (
zahl        :    4
operator    :    -
zahl        :    3
close       :    )</pre>
<p>Die einzelnen Zeilen nennt man <em>Tokens</em>. Sie bestehen aus einem Typ (&#8220;zahl&#8221;, &#8220;operator&#8221;, &#8230;) und einem Wert (&#8220;1&#8243;, &#8220;+&#8221;, &#8230;) und kapseln somit alle Informationen, die man benötigt, um damit weiterzuarbeiten.</p>
<p>Wichtig ist folgendes: der Lexer überprüft nicht den &#8220;Sinn&#8221; der Eingabe, d.h. auch ein nicht wohlgeformter Ausdruck wie &#8220;1+)(*2&#8243; würde von ihm brav und folgsam in eine Liste von Tokens umgewandelt werden. Die <em>semantische</em> Überprüfung erfolgt an anderer Stelle: dem <em>Parser</em>.</p>
<h2>Prinzip</h2>
<p>Wie schreibe ich einen Lexer? Das ist keine allzu schwere Sache, die Frage ist nur, wie effizient er letztlich ist. Ich werde hier verschiedene Ansätze darstellen, die jeweils Vor- und Nachteile haben.</p>
<h3><strong>Ansatz 1: Reguläre Ausdrücke auf den Anfang der Eingabesequenz anwenden<br />
</strong>(~ nicht naiv, aber auch nicht so der Hammer)<strong><br />
</strong></h3>
<ul>
<li>Der Lexer verwaltet eine Reihe von <strong>Datentypen</strong>, die durch <a href="http://de.wikipedia.org/wiki/Regul%C3%A4re_Ausdr%C3%BCcke">reguläre Ausdrücke</a> (Testen kann man z.B. <a href="http://www.regex-tester.de/regex.html">hier</a>) eindeutig definiert sind. Also z.B.:
<pre>zahl   =&gt;    [0-9]+
id     =&gt;    [a-zA-Z]+
open   =&gt;    \(
close  =&gt;    \)
comma  =&gt;    ,
op     =&gt;    [+\-]
...</pre>
</li>
<li></li>
<li>Auf Basis dieser Typen erfolgt nun die <strong>Umwandlung einer Eingabezeichenfolge in Tokens</strong>:
<ul>
<li>Erstelle eine leere Ausgabeliste.</li>
<li>Während die Zeichenfolge nicht leer ist:
<ol>
<li>Vergleiche den Anfang der Zeichenfolge mit den regulären Ausdrücken aller verfügbaren Datentypen, bis du einen Treffer landest.</li>
<li>Kein Treffer: Die Zeichenfolge enthält einen unbekannten Datentyp!</li>
<li>Ansonsten:
<ul>
<li>Schneide den gefundenen Ausdruck von der Eingabezeichenfolge ab.</li>
<li>Erstelle ein Token des gefundenen Typs und hänge es an die Ausgabeliste an.</li>
</ul>
</li>
<li>Gib die Ausgabeliste aus.</li>
</ol>
</li>
</ul>
</li>
<li>Ein <strong>Token</strong> enthält (wie bereits erwähnt) den Typ und Wert eines Ausdrucks. Des weiteren könnte es sich anbieten, auch jeweils Verweise zum vorhergehenden und nachfolgenden Token bereitzustellen, die ja Einfluss auf den <em>realen</em> Typ eines Tokens haben können.<br />
(Ein Plus benötigt z.B. normalerweise zwei Parameter, wenn aber vor dem Plus ein anderer Operator und danach eine Zahl steht, ist diese Zahl der einzige Parameter und das Plus ist ein Vorzeichen. Die Methode, die solche Sachen überprüft, sollte in der Implementierung der Datentypen auftauchen!)</li>
</ul>
<p>Der Vorteil dieser Methode ist die<strong> Erweiterbarkeit</strong>. Wenn man einen neuen Typen hinzufügen will, erstellt man einfach den dazugehörigen Ausdruck. Den Rest übernimmt der Lexer.</p>
<p>Ein gewaltiger Nachteil ist die Zuverlässigkeit: oft gibt es Mehrdeutigkeiten bei regulären Ausdrücken und der Lexer weiß nicht, welcher gerade der richtige ist. Außerdem lässt die Geschwindigkeit zu wünschen übrig: Im schlimmsten Fall (die gesamte Eingabe besteht aus n Tokens des gleichen Typs und dieser Typ ist der letzte, der überpürft wird) beträgt  bei einer Gesamtzahl von m Datentypen die Laufzeit: O(n*m*O(regulärer Ausdruck)) also vermutlich irgendetwas im Bereich <strong>O(m*n<sup>2</sup>)</strong></p>
<h3><strong>Ansatz 2: Spezialisierung auf bekannte Eingabetypen</strong><br />
(~ naiver Ansatz)</h3>
<p>Wenn man den Lexer nicht für beliebige Datentypen und -formate ausrichtet, sondern von vornherein weiß, wie viele es davon gibt und wie sie aussehen, kann man die Realisierung einfacher/verständlicher machen:</p>
<ol>
<li>Initialisiere einen Zähler i mit 0 und eine leere Liste für die Ausgabe.</li>
<li>Während i kleiner ist als die Länge der Eingabe:
<ul>
<li>Überprüfe das i-te Zeichen.</li>
<li>Wenn es eine Zahl ist, erhöhe i so lange um eins, bis das i-te Zeichen keine Zahl mehr ist und erstelle aus den dabei &#8220;überstrichenen&#8221; Zeichen ein Token des Typs &#8220;integer&#8221;. (Erstellt Token für Zahlen.)</li>
<li>Wenn es ein Buchstabe ist, erhöhe i so lange um eins, bis das i-te Zeichen weder Zahl noch Buchstabe ist und erstelle aus den dabei überstrichenen Zeichen ein Token des Typs &#8220;identifier&#8221;. (Erstellt Token für Variablen)</li>
<li>Wenn es ein Anführungszeichen ist, erhöhe i so lange um eins, bis das i-te Zeichen ebenfalls ein Anführungszeichen und das (i-1)-te Zeichen kein Backslash ist [...] (Erstellt Token für Strings)</li>
<li>usw&#8230;</li>
<li>Hänge das erstellte Token an die Ausgabeliste an.</li>
</ul>
</li>
<li>Gib die Ausgabeliste aus.</li>
</ol>
<p>Der Vorteil ist ganz klar die Geschwindigkeit: Jedes Zeichen der Eingabesequenz wird höchstens zweimal überprüft, d.h. die Laufzeit liegt in <strong>O(n)</strong>.</p>
<p>Nachteile sind hier die umständliche Erweiterbarkeit, sowie der meist aufgeblähte Code.</p>
<h3><strong>Ansatz 3: Endlicher Automat<br />
</strong>(~ professionell und kompliziert (?))</h3>
<p>Ansatz 2 war schon nichts anderes als die prinzipielle Funktionsweise eines <a href="http://de.wikipedia.org/wiki/Endlicher_Automat">endlichen Automaten</a>: Ausgehend von einem aktuellen Zustand (z.B. &#8220;Kein Zeichen überprüft&#8221;, &#8220;Stringbeginn entdeckt&#8221;) und einer Eingabe (z.B. das nächste Zeichen) geht der Automat in einen neuen Zustand (z.B. &#8220;Unerlaubtes Zeichen&#8221;, &#8220;Stringinhalt&#8221;) über. Wenn irgendwann ein Ausgabezustand erreicht wird, erhält man das gerade gelesene Token.</p>
<p>Wenn wir beispielsweise nur die Schlüsselwörter &#8220;echo&#8221; und &#8220;echtheit&#8221; hätten, ergäbe sich folgender Automat. (Startsymbol: S, Endsymbol E):</p>
<pre>                                         "echo" -----&gt; E("echo")
    e          c           h          o /
S -----&gt; "e" -----&gt; "ec" -----&gt; "ech"
                                      t \         h              e
                                         "echt" -----&gt; "echth" -----&gt; ... -----&gt; E("echtheit")</pre>
<p>Wenn ein Zustandsübergang nicht möglich ist, hat man es mit einer unerlaubten Sequenz zu tun. Ein detaillierteres Beispiel zur Modellierung eines endlichen Automaten findet man <a href="http://www.htw-dresden.de/~beck/Compiler/doc/lex.html">hier</a>.</p>
<p>Das besondere an endlichen Automaten ist, dass jeder reguläre Ausdruck in so einen Automaten verwandelt werden kann. Eine detaillierte Beschreibung für Interessierte gibt es <a href="http://www.informatik.uni-bremen.de/agbs/lehre/ws0607/uegen/folien-lex-analyse-2x2.pdf">hier (Uni Bremen)</a>.</p>
<p>Vor- und Nachteile entsprechen Ansatz 2, die Laufzeit beträgt ebenfalls <strong>O(n)</strong>. Endliche Automaten werden von fast allen Lexer-/Parser-Generatoren (auf Basis einer Grammatik) erstellt, sind also der meistverbreitete Ansatz zum Erstellen eines Lexers.</p>
<h3><strong>Ansatz 4: &#8220;Akzeptanztest&#8221; auf Basis vieler kleiner Typ-Automaten</strong><br />
( ~ Symbiose von Ansatz 1 und 3)</h3>
<p>Ich stand also nun vor dem Problem, zwischen Effizienz und Erweiterbarkeit abzuwägen &#8211; genauer gesagt: mich für eines von beiden entscheiden zu müssen &#8211; und das passte mir nicht wirklich. Also, zur Ablenkung mal weg vom Schreibblock und Computer, zum Lidl einkaufen und Flaschen zurückbringen. Was man halt so tut.</p>
<p>Und da war er: ein <strong>Pfandflaschen-Rückgabe-Automat,</strong> der nichts anderes tat, als tagein, tagaus Flaschen anzunehmen und zu überprüfen. Passte die Flasche, gab es einen Zettel, der bares Geld wert war, passte sie nicht, eine Fehlermeldung.</p>
<p><a href="http://dev.xscheme.de/wp-content/uploads/2009/08/miniautomat.png"><img class="alignleft size-full wp-image-936" style="border: 1px solid #bbbbbb; padding: 1em; margin-right: 1em; margin-bottom: 1em;" title="miniautomat" src="http://dev.xscheme.de/wp-content/uploads/2009/08/miniautomat.png" alt="miniautomat" width="111" height="158" /></a>Warum erzähle ich das? Nun, dieser Automat war die Lösung für mein Problem! <strong><br />
Man braucht viele kleine, auf einen bestimmten Typ (von Token, von Flaschen, &#8230;) spezialisierte Automaten, die anhand der bereits zuvor eingegebenen Daten (gelesene Zeichen, akzeptierte Flaschen, &#8230;) sagen, ob sie eine Eingabe (das nächste Zeichen, die nächste Flasche, &#8230;) akzeptieren. Oder eben nicht.</strong></p>
<p>Das Beispiel aus Ansatz 3  würde hierbei so realisiert: Sowohl der &#8220;echo&#8221;-Automat, als auch der &#8220;echtheit&#8221;-Automat würden die Eingaben &#8220;e&#8221;, &#8220;c&#8221; und &#8220;h&#8221; (in dieser Reihenfolge) akzeptieren, aber wenn nun ein &#8220;o&#8221; kommt, wird sich der &#8220;echtheit&#8221;-Automat aufregen. Für die weitere Überprüfung kann er also ignoriert werden. Und erst wenn auch der &#8220;echo&#8221;-Automat nicht mehr weitermachen will (also nach besagtem &#8220;o&#8221;), hat man sein Token gefunden und kann es über die Ausgabefunktion des Automaten auslesen.</p>
<p><strong>Allgemein:</strong> Man habe eine Menge A von Typ-Automaten und eine Eingabesequenz &lt;s<sub>0</sub>, s<sub>1</sub>, s<sub>2</sub>, s<sub>3</sub>, &#8230;, s<sub>n</sub>&gt;</p>
<ol>
<li>Versetze alle Automaten in A in ihren <strong>Ausgangszustand</strong>. (<em>Reset</em>)</li>
<li>Finde alle Automaten in A, <strong>die s<sub>0</sub> akzeptieren</strong> und bilde aus ihnen die Menge A<sub>0</sub></li>
<li>Initialisiere i mit 0. Während 0 &lt;= i &lt; n:
<ul>
<li>Wenn |A<sub>i</sub>| = 0: brich Schleife ab.</li>
<li>Ansonsten: Finde alle Automaten in A<sub>i</sub>, die s<sub>i+1</sub> akzeptieren und bilde aus ihnen die Menge A<sub>i+1</sub></li>
<li>Erhöhe i um 1.</li>
</ul>
</li>
<li>Wenn i=0: Ungültiger Ausdruck.</li>
<li>Ansonsten: Finde einen  <strong>passenden Typ</strong> aus A<sub>i-1</sub> bis A<sub>0</sub>, der sich in einem Ausgabezustand befindet (der Index der entsprechenden Automatenmenge sei j), und erstelle ein Token mit dem Wert &lt;s<sub>0</sub>, s<sub>1</sub>,&#8230;, s<sub>j</sub>&gt; und dem gefundenen Typen.</li>
<li>Fahre mit der restlichen Eingabesequenz fort.</li>
</ol>
<p>Betrachten wir die Laufzeit: Schritt 1 liegt in O(|A|), Schritt 2 ebenfalls. Schritt 3 benötigt im schlimmsten Fall (die Zeichenfolge wird von allen Automaten komplett akzeptiert) eine Laufzeit von O(n*|A|). Schritt 5 kann ebenfalls eine Laufzeit in O(n*|A|) erreichen, wenn kein einziger Automat in einem Ausgabezustand ist, die restlichen Schritte haben einen konstanten Zeitbedarf O(1).</p>
<p>Diese Methode ermittelt also den nächsten Token mit einer Laufzeit von O((2n+2)*|A|+1), also <strong>O(n*|A|)</strong>. Gleichzeitig ist <strong>Erweiterbarkeit</strong> gewährleistet, da die Typ-Automaten sehr leicht zu implementieren sind und der Lexer sie nicht von vornherein kennen muss.</p>
<p><strong>Zuverlässigkeit</strong> ist nur in Schritt 5 fraglich: Was ist der &#8220;passende Typ&#8221; zu einem Token? Hier könnte man ein hierarchisches System einführen, das z.B. festlegt: &#8220;Wenn die Wahl zwischen dem Typ Funktion und dem Typ Bezeichner getroffen werden muss, nimm die Funktion!&#8221;</p>
<p>Die Funktion eines Integer-Automats, die überprüft, ob ein Zeichen akzeptiert wird, könnte z.B. so aussehen:</p>
<pre>public bool Accept(char c)
{
    switch (char)
    {
        case '0': case '1': case '2': case '3': case '4':
        case '5': case '6': case '7': case '8': case '9':
            return true;
        default:
            return false;
    }
}</pre>
<p>Damit kann man leben, oder? Schwieriger wird es erst bei solchen Sachen wie Strings, wo z.B. beachtet werden muss, dass ein gültiges Zeichen, das nach dem Schließen des Strings kommt, natürlich nicht mehr akzeptiert werden darf. (Man müsste also im Automaten selbst weitere Zustandsdaten, z.B. einen boolschen Wert <em>stringClosed</em> oder so, speichern.)</p>
<h3><strong>Fazit</strong></h3>
<p>Um eine größtmögliche Erweiterbarkeit zu gewährleisten und weil ich stolz auf die Idee bin und überprüfen will, wie sie sich umsetzen lässt, werden wir Ansatz 4 implementieren. Ich frage mich allerdings, was &#8220;Pfandflaschenalgorithmus&#8221; auf Englisch heißt&#8230;</p>
<p><strong>Update (30.08.2009): </strong><br />
Eine bessere Analogie für den Algorithmus wäre statt dem Pfandflaschenautomaten wohl ein Rennen oder ein Wettbewerb: derjenige, der am weitesten kommt (&#8220;die meisten Eingaben akzeptiert), ist der Sieger &#8211; außer er bricht dann zusammen, fängt an zu heulen, etc&#8230; (&#8220;außer er befindet sich nicht in einem Ausgabezustand&#8221;) In dem Fall gewinnt der zweite Platz (der aber identisch mit dem ersten sein kann), außer auch dieser kommt mit dem Druck nicht klar. Und so weiter.</p>
<h2>Implementierung</h2>
<p style="text-align: left;"><a href="http://dev.xscheme.de/wp-content/uploads/2009/08/lexer.png"><img class="alignleft size-medium wp-image-940" style="border: 1px solid #bbbbbb; padding: 1em; margin-right: 1em; margin-bottom: 1em;" title="lexer" src="http://dev.xscheme.de/wp-content/uploads/2009/08/lexer-300x124.png" alt="lexer" width="300" height="124" /></a>Bei der Implementierung des Lexers sollten gleich alle verfügbaren Datentypen (Operator, Trennzeichen, Terminalausdruck, &#8230;) in eigenen Klassen gekapselt werden. Das macht die spätere Verwendung einfacher.</p>
<p style="text-align: left;">Zwei Sachen sollten hier näher erläutert werden. Zuerst die Methode <strong><em>signification </em></strong>der Klasse <em>SyntaxType</em>: sie ermittelt anhand eines konkreten Tokens den &#8220;<strong>wirklichen Typ</strong>&#8221; dieses Tokens. Man könnte z.B. einen Grundtyp <em>Identifier</em> definieren (als Unterklasse von <em>Terminal</em>), der alle Buchstabenfolgen (keine Zahlen, keine Sonderzeichen) repräsentiert. Die <em>signification</em>-Methode könnte dann ermitteln ob der Identifier eine Variable, ein Listenname, eine Konstante, etc&#8230; ist und dies zurückliefern. Oder eben oben genanntes Beispiel mit dem Pluszeichen, das abhängig vom Kontext ein Operator oder ein Vorzeichen sein kann.</p>
<p style="text-align: left;">Zweitens das Interface <strong><em>IStateMachine</em></strong>: Es kapselt die für Ansatz 4 (s.o.) benötigten Operationen. (Die Methode <em>IsOutputState</em> fehlt, sollte aber nicht vergessen werden!)</p>
<p style="text-align: left;"><strong>Update (12.08.2009):</strong><br />
Datentypen, die spezielle, angepasste Methoden <em>signification</em> benötigen, müssen als Unterklassen der jeweiligen Typen (hauptsächlich <em>Terminal</em> vermutlich) definiert werden und die Methoden überschreiben. Nur, falls das noch nicht klar war.</p>
<h2 style="text-align: left;">Gesamtfazit</h2>
<p style="text-align: left;">Nun kommen wir leicht an die einzelnen Bestandteile eines Ausdrucks, aber uns fehlen noch die Mittel, damit richtig umzugehen. Der nächste Schritt ist es also, Regeln für unsere verschiedenen Ausdrücke zu erstellen (Welche Art von Parametern benötigt eine Funktion/ein Operator/ein Pattern? Darf eine Funktion verschachtelt ausgeführt werden? Etc&#8230;) und anhand dieser Regeln einen gegebenen Ausdruck zu überprüfen und in eine einfach weiterzuverarbeitende Form zu bringen.</p>
<p style="text-align: left;">Hier kommt der sog. <em>Syntaxbaum</em> ins Spiel. Und der <em>Parser</em>, der ihn erstellt.</p>
<h2>Inhalt</h2>
<ol>
<li><a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">Einführung: Ein Abenteuer in Teilen</a></li>
<li><strong>Der Lexer</strong></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/">Grundlagen des Parsens</a></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/">Syntax</a><strong><br />
</strong></li>
</ol>
<div id="_mcePaste" style="overflow: hidden; position: absolute; left: -10000px; top: 3149px; width: 1px; height: 1px;">
<ul>
<li>Schneide den gefundenen Ausdruck von der Eingabezeichenfolge ab.</li>
<li>Wenn der Treffer ein Datenmuster ist, wende den Lexer auf alle Unterwerte an und hänge nacheinander ein Pattern-Token, eine öffnende Klammer, die verarbeiteten Unterwerte durch Kommas getrennt und eine schließende Klammer an die Ausgabeliste an.</li>
<li>Wenn der Treffer ein normaler Datentyp ist, erstelle ein Token dieses Typs und hänge es an die Ausgabeliste an.</li>
</ul>
</div>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
	</channel>
</rss>

<!-- Dynamic page generated in 0.464 seconds. -->
<!-- Cached page generated by WP-Super-Cache on 2010-03-12 12:19:51 -->
