<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>xscDevBlog - LastSharp &#38; Co. &#187; eigene programmiersprache</title>
	<atom:link href="http://dev.xscheme.de/tag/eigene-programmiersprache/feed/" rel="self" type="application/rss+xml" />
	<link>http://dev.xscheme.de</link>
	<description>Der xscheme-DevelopmentBlog</description>
	<lastBuildDate>Sun, 23 May 2010 11:40:10 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.1</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Wie entwickle ich meine eigene Scriptsprache? (Teil 3: Syntax)</title>
		<link>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/</link>
		<comments>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/#comments</comments>
		<pubDate>Sun, 30 Aug 2009 11:26:44 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[HowTo]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Theorie]]></category>
		<category><![CDATA[eigene programmiersprache]]></category>
		<category><![CDATA[eigene scriptsprache]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=952</guid>
		<description><![CDATA[Nun, wie weit sind wir bisher? Wir haben einen Lexer, der unsere Eingabe in Einzelteile spaltet, und wir können einfache Ausdrücke in eine verwertbare Form bringen. Was wir bisher noch nicht (bewusst) gemacht haben, ist, einen Ausdruck zu analysieren und zu prüfen, ob er sinnvoll ist oder nur unzusammenhängend aneinandergereihte Token enthält.
Zur Erinnerung: sowohl &#8220;1+2+3&#8243; [...]]]></description>
			<content:encoded><![CDATA[<p>Nun, wie weit sind wir <a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">bisher</a>? Wir haben einen <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Lexer</a>, der unsere Eingabe in Einzelteile spaltet, und wir können einfache Ausdrücke <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/">in eine verwertbare Form bringen</a>. Was wir bisher noch nicht (bewusst) gemacht haben, ist, einen Ausdruck zu analysieren und zu prüfen, ob er sinnvoll ist oder nur unzusammenhängend aneinandergereihte Token enthält.</p>
<p>Zur Erinnerung: sowohl &#8220;1+2+3&#8243; als auch &#8220;1+(&#8221; wären Zeichenfolgen, die der Lexer akzeptieren und ohne zu meckern zerkleinern würde. Das ist auch in Ordnung so, da die <strong>syntaktische Prüfung</strong> ohnehin eher Aufgabe des Parsers ist. Aber was genau gilt es denn dabei zu beachten?</p>
<h2>&#8220;Syntaxfragen&#8221;</h2>
<ul>
<li>Sind genau so viele öffnende wie schließende Klammern vorhanden und passen diese zusammen?</li>
<li>Stimmt die Zahl der Parameter, mit der eine Funktion aufgerufen wird?</li>
<li>Stimmen die Parametertypen, mit denen eine Funktion aufgerufen wird? (&#8220;+&#8221; arbeitet normalerweise nur auf Zahlen, der Punkt z.B. in PHP auf Strings, etc&#8230;)</li>
<li>Befinden sich Operatoren an den richtigen Positionen? (Die Fakultät einer Zahl wird z.B. durch Anhängen eines Ausrufezeichens gekennzeichnet: &#8220;3!&#8221;)</li>
<li>Darf eine Funktion geschachtelt vorkommen? (z.B. wäre &#8220;echo(echo(1))&#8221; eher sinnlos, wenn &#8220;echo&#8221; die Ausgabefunktion ist)</li>
<li>Darf eine Funktion/ein Konstrukt in einer untergeordneten Umgebung vorkommen? (Das wäre z.B. der Fall, wenn man Funktionsdefinitionen innerhalb von Funktionsdefinitionen zulässt.)</li>
</ul>
<p>Neben der Syntax gibt es noch weitere Punkte, die eine Programmier-/Scriptsprache ausmachen. Eine Auflistung findet man z.B. <a href="http://www.pilgerer.org/pw/ProgrammierSprachen">hier</a>.</p>
<p><span id="more-952"></span></p>
<h2>Einiges ist schon erledigt</h2>
<p>Der im vorhergehenden Teil präsentierte Shunting-Yard-Algorithmus nimmt uns die Überprüfung der Klammern, sowie der Position der Parameter bereits ab. Des weiteren ist es unumgänglich zur Erstellung des Syntaxbaumes die Anzahl der Parameter zu kennen, die eine bestimmte Funktion benötigt. Wir können also unsere Liste auf die Hälfte kürzen.</p>
<h2>Einiges noch nicht</h2>
<p>Der Syntaxbaum selbst macht die Syntaxprüfung recht simpel. Aber zuerst müssen wir für jede Funktion, jeden Operator und jedes Terminalsymbol festlegen, welche syntaxktischen Eigenschaften es hat. Das wird letztlich mittels einer Klasse <em>SyntaxDefinition</em> realisiert werden, die die entsprechenden Daten kapselt.</p>
<p>Wichtig ist hierbei: wir betrachten all die genannten Datentypen als Funktionen, auch die Terminalsymbole. Jede Funktion hat einen Rückgabetyp und beliebig viele Parametertypvarianten. Eine &#8220;Zahl&#8221; wäre also eine Funktion mit dem Parametertyp &#8220;Zahl&#8221; und dem Rückgabetyp &#8220;Zahl&#8221;.</p>
<p>Eine beispielhafte Aufstellung für die Syntax einer Sprache wäre die folgende:</p>
<ul>
<li>Terminalsymbol <em>Integer</em>:
<ul>
<li>Eingabe: Integer</li>
<li>Rückgabe: Integer</li>
<li>Verschachtelung erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>Terminalsymbol <em>String</em>:
<ul>
<li>Eingabe: String</li>
<li>Rückgabe: String</li>
<li>Verschachtelung erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>Terminalsymbol <em>Identifier</em>:
<ul>
<li>Eingabe: Identifier</li>
<li>Rückgabe: Identifier</li>
<li>Verschachtelung erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>Funktion <em>DefConstant</em>:
<ul>
<li>Eingabe: (Identifier, Integer) oder (Identifier, String)</li>
<li>Rückgabe: keine</li>
<li>Verschachtelung nicht erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>Operator <em>Plus</em>:
<ul>
<li>Eingabe: (Integer, Integer)</li>
<li>Rückgabe: Integer</li>
<li>Verschachtelung erlaubt</li>
<li>Unterordnung erlaubt</li>
</ul>
</li>
<li>&#8230;</li>
</ul>
<p>Es gibt aber auch Funktionen, deren Rückgabetyp erst zum Ausführungszeitpunkt feststeht. Bestes Beispiel ist hier die Auswertung von Variablen, die ja Werte verschiedenster Typen enthalten können.</p>
<p>Wie würde also nun die Überprüfung der Typkorrektheit und der Verschachtelung ablaufen? Wie bereits erwähnt nutzen wir hierfür den Syntaxbaum und testen jeden einzelnen Knoten unter Berücksichtigung der Kindknoten:</p>
<pre>               operator : +
              /            \
        integer : 1     operator : *
                       /            \
                  integer : 2   function : echo
                                     |
                                constant : e</pre>
<p>Für unseren Test entspräche das dem folgenden Baum (Notation: &#8220;Rückgabe / Verschachtelung erlaubt?&#8221;):</p>
<pre>               integer / ja
              /            \
        integer / ja    integer / ja
                       /            \
                  integer / ja  void / nein
                                     |
                                runtime / ja</pre>
<p>Die Wurzel (das Plus) erwartet zwei Parameter des Typs &#8220;integer&#8221;. Eine Überprüfung der Kindknoten zeigt, dass diese genau diesen Rückgabetyp besitzen &#8211; also alles in Ordnung , auch die Verschachtelung.<br />
Betrachtet man den rechten Ast weiter, sieht man zwei Probleme: die Multiplikation benötigt zwei &#8220;integer&#8221;-Parameter, erhält aber &#8220;integer&#8221; und &#8220;void&#8221; (<em>void</em> ist der Ausdruck für &#8220;keine Rückgabe&#8221;); und die &#8220;echo&#8221;-Funktion kann nicht geschachtelt auftreten, befindet sich aber auf Ebene 2.</p>
<p>Einen dieser Fehler sollte der Parser letztlich ausgeben und abbrechen!</p>
<h2>Einiges muss warten</h2>
<p>Ob ein Ausdruck in einer untergeordneten Umgebung auftritt, kann ein reiner Parser nicht wissen. Man könnte ihm zwar diesbezügliche Informationen zukommen lassen (und sollte das auch, wenn man vorhat, einen Compiler o.Ä. zu schreiben), der einfachste Ort für diese Überprüfung ist jedoch die Auswertung. (Das ist auch scriptsprachentauglich.)</p>
<p>Was die Parametertypen angeht, die erst bei der Ausführung feststehen, kann man entweder mit regulären Ausdrücken arbeiten und mit deren Hilfe die Teilergebnisse untersuchen, bevor man die übergeordnete Funktion aufruft, oder man überlässt das ganz der jeweiligen Funktion selbst. Geschmacksache.</p>
<h2>Spezielle Konstrukte</h2>
<p>In jeder Sprache gibt es bestimmte Schlüsselwörter, die spezielle Konstrukte beschreiben/einleiten. Gemeint ist soetwas wie:</p>
<pre>def a = 2</pre>
<p>Der Shunting-Yard-Algorithmus kommt aber nur mit Operatoren oder mit Funktionen der Form &#8220;f(p1, p2, &#8230;)&#8221; klar.<strong> </strong></p>
<h3><strong>Kein großes Problem?</strong></h3>
<p>Gut, das wäre jetzt kein großes Problem für das oben stehende Beispiel: man definiert &#8220;def&#8221; und &#8220;=&#8221; als Operatoren, wobei &#8220;def&#8221; ein Präfix-Operator mit genau einem Parameter ist und eine höhere Priorität als &#8220;=&#8221; hat. Der Operator &#8220;def&#8221; legt eine leere Variable mit dem übergebenen Namen an und liefert diesen Namen als Rückgabewert.<br />
&#8220;=&#8221; wiederum ist ein Infix-Operator mit zwei Parametern, das die (existierende!) Variable des übergebenen Namens mit dem übergebenen Wert füllt.</p>
<p>Der Syntaxbaum für oben genannten Ausdruck wäre dann:</p>
<pre>              operator : =
              /          \
     operator : def   integer : 2
             |
     identifier : a</pre>
<p>Und schon hätten wir das  gewünschte Verhalten, allerdings auf Kosten der Übersichtlichkeit in der Implementierung, sowie eines sehr großen Freiraums in der Grammatik. Immerhin wäre so etwas dann auch erlaubt:</p>
<pre>(((((def a))))) = 2
def b = def a</pre>
<p>Ein Verhindern von Verschachtelungen ist hier nicht mehr möglich.</p>
<h3><strong>Bessere Lösung</strong></h3>
<p>Wir brauchen einen Mechanismus, der aus &#8220;def a = 2&#8243; so etwas macht wie &#8220;def(a, 2)&#8221;, also einen regulären Funktionsaufruf. Es handelt sich hierbei um eine Mustererkennung auf Basis bereits gelesener Token, d.h. die eigentliche Umwandlung findet nach dem erstmaligen Einlesen der Eingabesequenz durch den Lexer statt:</p>
<pre>keyword : def
identifier : a
operator : =
integer : 2</pre>
<p>wird zu</p>
<pre>function : def
open : (
identifier : a
comma : ,
integer : 2
close : )</pre>
<p>In meinen Augen bietet sich hierfür wieder  der in <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Teil 1</a> unter Alternative 4 vorgestellte Algorithmus an, der z.B. mit einem Automaten arbeiten könnte, der die folgende Akzeptanzfunktion besitzt (Vorsicht: Pseudocode!):</p>
<pre>private int tokenNumber = -1;
public bool accept(Token t)
{
    tokenNumber++;
    return
        (tokenNumber == 0 &amp;&amp; "t ist vom Typ 'keyword' und hat den Wert 'def'") ||
        (tokenNumber == 1 &amp;&amp; "t ist vom Typ 'identifier'") ||
        (tokenNumber == 2 &amp;&amp; "t ist vom Typ 'operator' und hat den Wert '='") ||
        tokenNumber &gt; 2;
}</pre>
<p>Gleichzeitig müssten irgendwo die relevanten Token gesichert werden, damit die Umwandlung in eine Funktion später auch reibungslos vonstatten gehen kann.</p>
<p>Ich würde sagen, damit haben wir eine vernünftige Lösung gefunden.</p>
<h2>Fazit</h2>
<p>Wir können nun unseren Syntaxbaum auf syntaktische Merkmale hin untersuchen und spezielle Ausdrücke und Konstrukte berücksichtigen. Langsam sollten wir uns also an die Ausführung eines Ausdrucks machen.</p>
<p>Ein in diesem Artikel häufig verwendetes Wort war &#8220;Umgebung&#8221;. Es handelt sich dabei um den Speicher für Variablen, Funktionen, etc&#8230; Ohne diesen ist die Entwicklung einer Scriptsprache relativ witzlos, weswegen wir an genau dieser Stelle weitermachen werden.</p>
<h2>Inhalt</h2>
<ol>
<li><a href="../2009/07/eigene-programmiersprache-scriptsprach/">Einführung: Ein Abenteuer in Teilen</a></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Der Lexer</a></li>
<li><a href="../2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/">Grundlagen des Parsens</a></li>
<li><strong>Syntax</strong></li>
</ol>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Wie entwickle ich meine eigene Scriptsprache? (Teil 2: Grundlagen des Parsens)</title>
		<link>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/</link>
		<comments>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/#comments</comments>
		<pubDate>Sat, 15 Aug 2009 13:51:46 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[HowTo]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Theorie]]></category>
		<category><![CDATA[eigene programmiersprache]]></category>
		<category><![CDATA[eigene scriptsprache]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=905</guid>
		<description><![CDATA[Einen wichtigen Schritt haben wir an dieser Stelle bereits hinter uns: Der hier beschriebene Lexer verwandelt eine Eingabesequenz wie &#8220;1+3*(4-2)&#8221;  in eine Liste von Tokens mit Typ und Wert:
zahl        :    1
operator    :    +
zahl       [...]]]></description>
			<content:encoded><![CDATA[<p>Einen wichtigen Schritt haben wir an dieser Stelle bereits hinter uns: Der <a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">hier beschriebene</a> Lexer verwandelt eine Eingabesequenz wie &#8220;1+3*(4-2)&#8221;  in eine Liste von Tokens mit Typ und Wert:</p>
<pre>zahl        :    1
operator    :    +
zahl        :    3
operator    :    *
open        :    (
zahl        :    4
operator    :    -
zahl        :    2
close       :    )</pre>
<p>Damit haben wir eine maschinenlesbare Repräsentation des gewünschten Ausdrucks &#8211; allerdings keine Garantie dafür, dass dieser syntaktisch korrekt ist. Ebensowenig kann eine Maschine, die diese Liste nun vorgelegt bekommt, &#8220;einfach mal so&#8221; den Wert des Ausdrucks berechnen, da ihr Informationen zur Auswertungsreihenfolge fehlen. (Wenn 1+3 zuerst berechnet wird, lautet das Ergebnis 8, wenn 3*(4-2) zuerst berechnet wird, lautet es 7.)</p>
<p>Wir brauchen also eine Darstellung unseres Ausdrucks, die bezüglich der Reihenfolge der Auswertung eindeutig ist und eine Maschine, die diese erstellt  &#8211; und wie könnte es anders sein: auch dieses Problem wurde bereits einmal gelöst.</p>
<p>Wandeln wir also auf den Spuren von <a href="http://de.wikipedia.org/wiki/Edsger_Wybe_Dijkstra">Edsger W. Dijkstra</a>.</p>
<p><span id="more-905"></span></p>
<h2>Reverse Polish Notation</h2>
<p>Der polnische Mathematiker Jan Łukasiewicz entwickelte etwa 1920 die sog. <a href="http://en.wikipedia.org/wiki/Polish_notation">Polnische Notation</a> für arithmetische Ausdrücke, die sich dadurch auszeichnete, dass jedem Operator (&#8220;+&#8221;, &#8220;-&#8221;, &#8230;) direkt seine Operanden (Zahlen oder weitere arithmetische Ausdrücke) folgten. Durch diese Präfixnotation ergibt sich die Möglichkeit, auf Klammern, Kommas, etc&#8230; verzichten zu können, wenn man weiß, wie viele Operanden ein Operator benötigt:</p>
<pre>1+2+3         ==&gt;        + 1 + 2 3           (auch: + + 1 2 3)
1+3*(4-2)     ==&gt;        + 1 * 3 - 4 2
(3+4)*(4*3-1) ==&gt;        * + 3 4 - * 4 3 1</pre>
<p>Anhand des letzten Beispiels will ich die Auswertung so eines Ausdrucks beschreiben. Das Prinzip ist: &#8220;Werte den Ausdruck, der nur Zahlen als Operanden hat, als nächstes aus!&#8221;</p>
<pre>
<pre>   * + 3 4 - * 4 3 1        |   Das + bezieht sich auf 3 und 4!
=  * 7     - * 4 3 1        |   Das * bezieht sich auf 4 und 3!
=  * 7     - 12    1        |   Das - bezieht sich auf 12 und 1!
=  * 7     11               |   Das * bezieht sich auf 7 und 11!
=  77</pre>
</pre>
<p>Wie bereits erwähnt,<strong> funktioniert so eine Auswertung nur, wenn man weiß, wie viele Operanden/Parameter ein Operator/eine Funktion benötigt</strong>. Deswegen haben wir uns bei der Entwicklung des Lexers auch die Mühe gemacht, diese Information immer irgendwie bei der Hand zu haben.</p>
<p>Was Dijkstra nun gemacht hat, war, aus der Präfix- eine Postfixnotation zu machen, die sog. <a href="http://en.wikipedia.org/wiki/Reverse_Polish_notation">Reverse Polish Notation (RPN)</a>. Hier stehen nun alle Operanden <em>vor</em> dem Operator zu dem sie gehören:</p>
<pre>1+2+3         ==&gt;        1 2 3 + +          (auch: 1 2 + 3 +)
1+3*(4-2)     ==&gt;        1 3 4 2 - * +
(3+4)*(4*3-1) ==&gt;        3 4 + 4 3 * 1 - *</pre>
<p>Sowohl <em>Polish Notation</em> als auch <em>Reverse Polish Notation</em> beschreiben (unter der Voraussetzung, dass man die Anzahl der Parameter/Operanden kennt) eine <strong>eindeutige Auswertungsreihenfolge</strong>. Bei der letztlichen Auswertung ist die RPN aber ihrem Vorfahren in Bezug auf Speicherverbrauch und Verständlichkeit dann doch voraus. Die Regel: &#8220;Wenn ein Operator auftaucht, werte ihn aus!&#8221;</p>
<p>Wir benötigen hierbei einen <a href="http://de.wikipedia.org/wiki/Stapelspeicher">Stack</a>, der die Zwischenergebnisse speichert und der diese bei Auftreten eines Operators zur Berechnung zur Verfügung stellt.</p>
<pre>
<pre>----------------------------------------------------------------------------------
Eingabe            | Stack    |  Kommentar
----------------------------------------------------------------------------------
3 4 + 4 3 * 1 - *  |          |  Beginn des Algorithmus
4 + 4 3 * 1 - *    | 3        |  Zahl (3): auf den Stack!
+ 4 3 * 1 - *      | 3 4      |  Zahl (4): auf den Stack!
4 3 * 1 - *        | 7        |  Operator (+): hole 3 und 4, berechne, speichere
3 * 1 - *          | 7 4      |  Zahl (4): auf den Stack!
* 1 - *            | 7 4 3    |  Zahl (3): auf den Stack!
1 - *              | 7 12     |  Operator (*): hole 4 und 3, berechne, speichere
- *                | 7 12 1   |  Zahl (1): auf den Stack!
*                  | 7 11     |  Operator (-): hole 12 und 1, berechne, speichere
                   | 77       |  Operator (*): hole 7 und 11, berechne, speichere
                   | 77       |  Eingabe leer, Ergebnis auf Stack.</pre>
</pre>
<p>Dies umzusetzen ist kein großes Problem und spricht in jedem Fall für die <em>Reverse Polish Notation</em> als Darstellung eines auszuwertenden Ausdrucks. Und dann wäre da noch die kleine, aber feine Tatsache, dass es einen Algorithmus gibt, der die <strong>Umwandlung</strong> &#8220;normaler&#8221; (Infix-)Ausdrücke (à la &#8220;1+2*f(3)&#8221;) in diese Notation vornimmt.</p>
<h2>Der Shunting-Yard-Algorithmus</h2>
<p>Der <a href="http://en.wikipedia.org/wiki/Shunting_yard_algorithm">Shunting-Yard-Algorithmus</a> (zu deutsch: <em>Rangierbahnhofalgorithmus</em>) ist eine ebenfalls von Dijkstra entwickelte Methode zur Umwandlung von Infix-Ausdrücken in Postfix-Notation. Sein Name kommt daher, dass seine Funktionsweise den Abläufen in einem Rangierbahnhof entspricht: alle terminalen Symbole (z.B. Zahlen, Variablen, &#8230;) sind Waren und Güter, die von Zügen (den nichtterminalen Symbolen wie Operatoren und Funktionen) mitgenommen werden müssen.</p>
<p>Die folgende Animation zeigt (vereinfacht) das Prinzip des Algorithmus. Er basiert darauf, dass in der Zugwarteschlange immer der Zug mit der höchsten Priorität (in der Realität z.B. die Geschwindigkeit) ganz vorne steht. Will sich ein langsamerer Zug einreihen, müssen also zuerst alle schnelleren Züge losgefahren sein. (Jeder Zug kann beliebig viele Waren transportieren und nimmt beim Abfahren alle verfügbaren mit! Es kann also auch passieren, dass ein Zug leer losfährt.)</p>
<p>Übertragen auf die <em>Reverse Polish Notation</em>: <strong>Die Operationen mit der niedrigsten Priorität werden zuletzt ausgeführt, entsprechen also den langsamsten Zügen</strong>. Mit ein wenig Überlegung sieht man, dass der Algorithmus also genau das Ergebnis liefern wird, was wir haben wollen!</p>
<p style="text-align: center;"><img class="size-full wp-image-911 aligncenter" style="border: 1px solid #bbbbbb; padding: 1em;" title="shuntingyard" src="http://dev.xscheme.de/wp-content/uploads/2009/08/shuntingyard.gif" alt="shuntingyard" width="400" height="400" /></p>
<p style="text-align: left;">Die Waren-Schlange kann übrigens in der letztlichen Implementierung entfallen, wenn man alle Waren einfach direkt zum Ausgang schiebt und immer nur den Zug voranstellt, der sie mitnehmen soll.</p>
<p style="text-align: left;">Hinzu kommt noch die Behandlung von Klammern und Trennsymbolen (z.B Kommas). Ich möchte den Algorithmus hier nicht im Detail aufschreiben, da der zugehörige Wikipedia-Artikel (englisch) eine <a href="http://en.wikipedia.org/wiki/Shunting_yard_algorithm#The_algorithm_in_detail">genaue Beschreibung</a> enthält.</p>
<p style="text-align: left;">Wichtig ist:</p>
<ul>
<li>Der Algorithmus kann Operatoren, Terminalsymbole, Klammern, Trennzeichen und Funktionen verarbeiten, d.h. wenn wir spezielle Konstrukte haben (z.B. &#8220;def x=a*(b-1)&#8221;) müssen wir diese erst in Funktionsform bringen. (z.B. &#8220;definition(x, a*(b-1))&#8221;)</li>
<li>Der Algorithmus hat eine Laufzeit in <strong>O(n)</strong>, d.h. er ist vergleichsweise effizient.</li>
</ul>
<h2>Reverse Polish Notation vs. Syntaxbaum</h2>
<p>Eine weitere Möglichkeit, die Ausführungsreihenfolge eindeutig festzulegen, ist das Erstellen eines Syntaxbaumes. Für den Ausdruck &#8220;1+2*sqrt(e)&#8221; hat dieser z.B. die folgende Form:</p>
<pre>               operator : +
              /            \
        integer : 1     operator : *
                       /            \
                  integer : 2   function : sqrt
                                     |
                                constant : e</pre>
<p>Die Auswertung erfolgt von unten nach oben, d.h. bei der letztlichen Berechnung würden folgende Schritte ausgeführt:</p>
<pre>e                 =&gt; 2.71
sqrt(2.71)        =&gt; 1.65
2                 =&gt; 2
2 * 1.65          =&gt; 3.3
1                 =&gt; 1
1 + 3.3           =&gt; 4.3</pre>
<p><strong>Das besondere ist, das jeder Syntaxbaum sehr einfach in <em>Reverse Polish Notation</em> umgewandelt werden kann und jede RPN ebenso einfach in einen Syntaxbaum. </strong></p>
<p>Für erstere Umwandlung durchläuft man den Baum als <em>Post-Order-Traversierung</em>, d.h. man schreibt ausgehend von der Wurzel zuerst die <em>Post-Order-Notation</em> der Kindknoten auf und hängt anschließend den Wert der Wurzel daran an.</p>
<p>Für die entgegensetzte Transformation tut man so, als würde man die RPN-Notation auswerten (siehe oben!), aber anstatt auf dem Stack Zwischenergebnisse zu speichern, sichert man dort die Teilbäume:</p>
<pre>
<pre>-----------------------------------------------------------------------------------
Eingabe            | Stack           |  Kommentar
-----------------------------------------------------------------------------------
3 4 + 4 3 * 1 - *  |                     |  Beginn des Algorithmus
4 + 4 3 * 1 - *    | 3                   |  Zahl (3): <span style="text-decoration: underline;">Blatt</span> auf den Stack!
+ 4 3 * 1 - *      | 3 4                 |  Zahl (4): Blatt auf den Stack!
4 3 * 1 - *        | +(3,4)              |  Operator (+): hole Blätter, bilde Baum
3 * 1 - *          | +(3,4) 4            |  Zahl (4): Blatt auf den Stack!
* 1 - *            | +(3,4) 4 3          |  Zahl (3): Blatt auf den Stack!
1 - *              | +(3,4) *(4,3)       |  Operator (*): hole Blätter, bilde Baum
- *                | +(3,4) *(4,3) 1     |  Zahl (1): Blatt auf den Stack!
*                  | +(3,4) -(*(4,3), 1) |  Operator (-): hole Blatt/Teilbaum, bilde Baum
[...]

Ergebnis: *(+(3,4), -(*(4,3), 1))</pre>
</pre>
<p>Ich hoffe die Baumnotation &#8220;Wurzel(Teilbaum1, Teilbaum2, &#8230;)&#8221; ist verständlich.</p>
<p>Es gibt hierzu noch eine weitere wichtige Anmerkung:<br />
<strong>Jeder Algorithmus, der die <em>Reverse Polish Notation</em> eines Ausdrucks erstellen kann, kann so modifiziert werden, dass er einen Syntaxbaum erstellt und jeder Algorithmus, der einen Syntaxbaum erstellt, kann auch die RPN eines Ausdrucks erstellen!</strong></p>
<p>Beide Darstellungen sind also gleichwertig in der Funktionalität, der Syntaxbaum benötigt jedoch mehr Speicherplatz, außerdem ist eine Auswertung des Baumes auf rekursivem Weg ebenfalls nicht gerade resourcenschonend.</p>
<h2>Fazit</h2>
<p>Auch wenn die <em>Reverse Polish Notation</em> eines Ausdrucks Verarbeitungsvorteile mit sich bringt, erschwert sie die Untersuchung der Eingabe auf syntaktische Korrektheit (vor allem Typkorrektheit!). Unser Parser muss also intern einen Syntaxbaum erstellen, diesen überprüfen und anschließend die RPN des Ausdrucks ausgeben. Damit dürften wir auf der sicheren Seite sein.</p>
<p>Nur: Was ist eigentlich Syntax?</p>
<h2>Inhalt</h2>
<ol>
<li><a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">Einführung: Ein Abenteuer in Teilen</a></li>
<li><a href="../2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Der Lexer</a></li>
<li><strong>Grundlagen des Parsens</strong></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/">Syntax</a><strong><br />
</strong></li>
</ol>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Wie entwickle ich meine eigene Scriptsprache? (Teil 1: Der Lexer)</title>
		<link>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/</link>
		<comments>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/#comments</comments>
		<pubDate>Tue, 11 Aug 2009 18:55:07 +0000</pubDate>
		<dc:creator>WordPress</dc:creator>
				<category><![CDATA[HowTo]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Theorie]]></category>
		<category><![CDATA[eigene programmiersprache]]></category>
		<category><![CDATA[eigene scriptsprache]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=889</guid>
		<description><![CDATA[Die Aufgabe, die ich mir hier gestellt habe, eine eigene Script- oder Programmiersprache zu entwickeln, bringt so ihre Probleme mit sich. Wie und wo fange ich an? Ist das nicht zu viel für mich? Und sollte ich nicht auf bereits vorhandene Bibliotheken zurückgreifen, anstatt alles von Grund auf neu zu entwickeln?
Vor allem die letzte Frage [...]]]></description>
			<content:encoded><![CDATA[<p>Die Aufgabe, die ich mir <a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">hier</a> gestellt habe, eine <strong>eigene Script- oder Programmiersprache</strong> zu entwickeln, bringt so ihre Probleme mit sich. Wie und wo fange ich an? Ist das nicht zu viel für mich? Und sollte ich nicht auf bereits vorhandene Bibliotheken zurückgreifen, anstatt alles von Grund auf neu zu entwickeln?</p>
<p>Vor allem die letzte Frage kann einem zu schaffen machen. Warum etwas möglicherweise nicht gut funktionierendes entwickeln, wenn es doch überall schon tausendfach durchdachte Lösungen gibt? Immerhin lautet doch eine der obersten Regeln in der Softwareentwicklung:</p>
<blockquote><p>Don&#8217;t reinvent the wheel!</p></blockquote>
<p>Nun, ich bin Informatikstudent. Ich will wissen, wie die Dinge &#8220;unter der Haube&#8221; aussehen, ich will lernen. Und wenn alle nur noch auf vorgefertige Bibliotheken zurückgreifen, weiß doch bald keiner mehr, was dem Zauber eigentlich zugrunde liegt&#8230; <a href="http://www.codinghorror.com/blog/archives/001145.html">Dementsprechend</a>:</p>
<blockquote><p><strong>Don&#8217;t reinvent the wheel, unless you plan on learning more about wheels!</strong></p></blockquote>
<p>Diese Anleitung soll jedem helfen, der interessiert daran ist, was im Inneren eines Interpreters oder Compilers eigentlich (ungefähr so) abläuft. Ich selbst habe gerade erst das zweite Semester hinter mir, d.h. allzu theoretisch wird es hier nicht und jeder mit ein wenig logischem Denken und genug Engagement sollte es hinbekommen, meinen Ausführungen zu folgen.</p>
<p>Lasset uns beginnen. <img src='http://dev.xscheme.de/wp-includes/images/smilies/icon_wink.gif' alt=';)' class='wp-smiley' /> </p>
<p><span id="more-889"></span></p>
<h2>Der Lexer</h2>
<p>Ein <a href="http://de.wikipedia.org/wiki/Lexikalischer_Scanner">lexikalischer Scanner</a> (kurz: <em>Lexer</em>) ist eine &#8220;Maschine&#8221;, die eine Zeichenfolge als Eingabe erhält und diese in kleinere Teile spaltet, denen eine bestimmte Bedeutung/ein bestimmter Typ zugrunde liegt.</p>
<p>Ein Taschenrechner, beispielsweise, kennt Zahlen, Operatoren und Klammern. Gibt man dem Lexer dieses Taschenrechners nun die Folge &#8220;1+2*(4-3)&#8221; zur Verarbeitung, wird daraus die folgende (oder eine ähnliche) Liste:</p>
<pre>zahl        :    1
operator    :    +
zahl        :    2
operator    :    *
open        :    (
zahl        :    4
operator    :    -
zahl        :    3
close       :    )</pre>
<p>Die einzelnen Zeilen nennt man <em>Tokens</em>. Sie bestehen aus einem Typ (&#8220;zahl&#8221;, &#8220;operator&#8221;, &#8230;) und einem Wert (&#8220;1&#8243;, &#8220;+&#8221;, &#8230;) und kapseln somit alle Informationen, die man benötigt, um damit weiterzuarbeiten.</p>
<p>Wichtig ist folgendes: der Lexer überprüft nicht den &#8220;Sinn&#8221; der Eingabe, d.h. auch ein nicht wohlgeformter Ausdruck wie &#8220;1+)(*2&#8243; würde von ihm brav und folgsam in eine Liste von Tokens umgewandelt werden. Die <em>semantische</em> Überprüfung erfolgt an anderer Stelle: dem <em>Parser</em>.</p>
<h2>Prinzip</h2>
<p>Wie schreibe ich einen Lexer? Das ist keine allzu schwere Sache, die Frage ist nur, wie effizient er letztlich ist. Ich werde hier verschiedene Ansätze darstellen, die jeweils Vor- und Nachteile haben.</p>
<h3><strong>Ansatz 1: Reguläre Ausdrücke auf den Anfang der Eingabesequenz anwenden<br />
</strong>(~ nicht naiv, aber auch nicht so der Hammer)<strong><br />
</strong></h3>
<ul>
<li>Der Lexer verwaltet eine Reihe von <strong>Datentypen</strong>, die durch <a href="http://de.wikipedia.org/wiki/Regul%C3%A4re_Ausdr%C3%BCcke">reguläre Ausdrücke</a> (Testen kann man z.B. <a href="http://www.regex-tester.de/regex.html">hier</a>) eindeutig definiert sind. Also z.B.:
<pre>zahl   =&gt;    [0-9]+
id     =&gt;    [a-zA-Z]+
open   =&gt;    \(
close  =&gt;    \)
comma  =&gt;    ,
op     =&gt;    [+\-]
...</pre>
</li>
<li></li>
<li>Auf Basis dieser Typen erfolgt nun die <strong>Umwandlung einer Eingabezeichenfolge in Tokens</strong>:
<ul>
<li>Erstelle eine leere Ausgabeliste.</li>
<li>Während die Zeichenfolge nicht leer ist:
<ol>
<li>Vergleiche den Anfang der Zeichenfolge mit den regulären Ausdrücken aller verfügbaren Datentypen, bis du einen Treffer landest.</li>
<li>Kein Treffer: Die Zeichenfolge enthält einen unbekannten Datentyp!</li>
<li>Ansonsten:
<ul>
<li>Schneide den gefundenen Ausdruck von der Eingabezeichenfolge ab.</li>
<li>Erstelle ein Token des gefundenen Typs und hänge es an die Ausgabeliste an.</li>
</ul>
</li>
<li>Gib die Ausgabeliste aus.</li>
</ol>
</li>
</ul>
</li>
<li>Ein <strong>Token</strong> enthält (wie bereits erwähnt) den Typ und Wert eines Ausdrucks. Des weiteren könnte es sich anbieten, auch jeweils Verweise zum vorhergehenden und nachfolgenden Token bereitzustellen, die ja Einfluss auf den <em>realen</em> Typ eines Tokens haben können.<br />
(Ein Plus benötigt z.B. normalerweise zwei Parameter, wenn aber vor dem Plus ein anderer Operator und danach eine Zahl steht, ist diese Zahl der einzige Parameter und das Plus ist ein Vorzeichen. Die Methode, die solche Sachen überprüft, sollte in der Implementierung der Datentypen auftauchen!)</li>
</ul>
<p>Der Vorteil dieser Methode ist die<strong> Erweiterbarkeit</strong>. Wenn man einen neuen Typen hinzufügen will, erstellt man einfach den dazugehörigen Ausdruck. Den Rest übernimmt der Lexer.</p>
<p>Ein gewaltiger Nachteil ist die Zuverlässigkeit: oft gibt es Mehrdeutigkeiten bei regulären Ausdrücken und der Lexer weiß nicht, welcher gerade der richtige ist. Außerdem lässt die Geschwindigkeit zu wünschen übrig: Im schlimmsten Fall (die gesamte Eingabe besteht aus n Tokens des gleichen Typs und dieser Typ ist der letzte, der überpürft wird) beträgt  bei einer Gesamtzahl von m Datentypen die Laufzeit: O(n*m*O(regulärer Ausdruck)) also vermutlich irgendetwas im Bereich <strong>O(m*n<sup>2</sup>)</strong></p>
<h3><strong>Ansatz 2: Spezialisierung auf bekannte Eingabetypen</strong><br />
(~ naiver Ansatz)</h3>
<p>Wenn man den Lexer nicht für beliebige Datentypen und -formate ausrichtet, sondern von vornherein weiß, wie viele es davon gibt und wie sie aussehen, kann man die Realisierung einfacher/verständlicher machen:</p>
<ol>
<li>Initialisiere einen Zähler i mit 0 und eine leere Liste für die Ausgabe.</li>
<li>Während i kleiner ist als die Länge der Eingabe:
<ul>
<li>Überprüfe das i-te Zeichen.</li>
<li>Wenn es eine Zahl ist, erhöhe i so lange um eins, bis das i-te Zeichen keine Zahl mehr ist und erstelle aus den dabei &#8220;überstrichenen&#8221; Zeichen ein Token des Typs &#8220;integer&#8221;. (Erstellt Token für Zahlen.)</li>
<li>Wenn es ein Buchstabe ist, erhöhe i so lange um eins, bis das i-te Zeichen weder Zahl noch Buchstabe ist und erstelle aus den dabei überstrichenen Zeichen ein Token des Typs &#8220;identifier&#8221;. (Erstellt Token für Variablen)</li>
<li>Wenn es ein Anführungszeichen ist, erhöhe i so lange um eins, bis das i-te Zeichen ebenfalls ein Anführungszeichen und das (i-1)-te Zeichen kein Backslash ist [...] (Erstellt Token für Strings)</li>
<li>usw&#8230;</li>
<li>Hänge das erstellte Token an die Ausgabeliste an.</li>
</ul>
</li>
<li>Gib die Ausgabeliste aus.</li>
</ol>
<p>Der Vorteil ist ganz klar die Geschwindigkeit: Jedes Zeichen der Eingabesequenz wird höchstens zweimal überprüft, d.h. die Laufzeit liegt in <strong>O(n)</strong>.</p>
<p>Nachteile sind hier die umständliche Erweiterbarkeit, sowie der meist aufgeblähte Code.</p>
<h3><strong>Ansatz 3: Endlicher Automat<br />
</strong>(~ professionell und kompliziert (?))</h3>
<p>Ansatz 2 war schon nichts anderes als die prinzipielle Funktionsweise eines <a href="http://de.wikipedia.org/wiki/Endlicher_Automat">endlichen Automaten</a>: Ausgehend von einem aktuellen Zustand (z.B. &#8220;Kein Zeichen überprüft&#8221;, &#8220;Stringbeginn entdeckt&#8221;) und einer Eingabe (z.B. das nächste Zeichen) geht der Automat in einen neuen Zustand (z.B. &#8220;Unerlaubtes Zeichen&#8221;, &#8220;Stringinhalt&#8221;) über. Wenn irgendwann ein Ausgabezustand erreicht wird, erhält man das gerade gelesene Token.</p>
<p>Wenn wir beispielsweise nur die Schlüsselwörter &#8220;echo&#8221; und &#8220;echtheit&#8221; hätten, ergäbe sich folgender Automat. (Startsymbol: S, Endsymbol E):</p>
<pre>                                         "echo" -----&gt; E("echo")
    e          c           h          o /
S -----&gt; "e" -----&gt; "ec" -----&gt; "ech"
                                      t \         h              e
                                         "echt" -----&gt; "echth" -----&gt; ... -----&gt; E("echtheit")</pre>
<p>Wenn ein Zustandsübergang nicht möglich ist, hat man es mit einer unerlaubten Sequenz zu tun. Ein detaillierteres Beispiel zur Modellierung eines endlichen Automaten findet man <a href="http://www.htw-dresden.de/~beck/Compiler/doc/lex.html">hier</a>.</p>
<p>Das besondere an endlichen Automaten ist, dass jeder reguläre Ausdruck in so einen Automaten verwandelt werden kann. Eine detaillierte Beschreibung für Interessierte gibt es <a href="http://www.informatik.uni-bremen.de/agbs/lehre/ws0607/uegen/folien-lex-analyse-2x2.pdf">hier (Uni Bremen)</a>.</p>
<p>Vor- und Nachteile entsprechen Ansatz 2, die Laufzeit beträgt ebenfalls <strong>O(n)</strong>. Endliche Automaten werden von fast allen Lexer-/Parser-Generatoren (auf Basis einer Grammatik) erstellt, sind also der meistverbreitete Ansatz zum Erstellen eines Lexers.</p>
<h3><strong>Ansatz 4: &#8220;Akzeptanztest&#8221; auf Basis vieler kleiner Typ-Automaten</strong><br />
( ~ Symbiose von Ansatz 1 und 3)</h3>
<p>Ich stand also nun vor dem Problem, zwischen Effizienz und Erweiterbarkeit abzuwägen &#8211; genauer gesagt: mich für eines von beiden entscheiden zu müssen &#8211; und das passte mir nicht wirklich. Also, zur Ablenkung mal weg vom Schreibblock und Computer, zum Lidl einkaufen und Flaschen zurückbringen. Was man halt so tut.</p>
<p>Und da war er: ein <strong>Pfandflaschen-Rückgabe-Automat,</strong> der nichts anderes tat, als tagein, tagaus Flaschen anzunehmen und zu überprüfen. Passte die Flasche, gab es einen Zettel, der bares Geld wert war, passte sie nicht, eine Fehlermeldung.</p>
<p><a href="http://dev.xscheme.de/wp-content/uploads/2009/08/miniautomat.png"><img class="alignleft size-full wp-image-936" style="border: 1px solid #bbbbbb; padding: 1em; margin-right: 1em; margin-bottom: 1em;" title="miniautomat" src="http://dev.xscheme.de/wp-content/uploads/2009/08/miniautomat.png" alt="miniautomat" width="111" height="158" /></a>Warum erzähle ich das? Nun, dieser Automat war die Lösung für mein Problem! <strong><br />
Man braucht viele kleine, auf einen bestimmten Typ (von Token, von Flaschen, &#8230;) spezialisierte Automaten, die anhand der bereits zuvor eingegebenen Daten (gelesene Zeichen, akzeptierte Flaschen, &#8230;) sagen, ob sie eine Eingabe (das nächste Zeichen, die nächste Flasche, &#8230;) akzeptieren. Oder eben nicht.</strong></p>
<p>Das Beispiel aus Ansatz 3  würde hierbei so realisiert: Sowohl der &#8220;echo&#8221;-Automat, als auch der &#8220;echtheit&#8221;-Automat würden die Eingaben &#8220;e&#8221;, &#8220;c&#8221; und &#8220;h&#8221; (in dieser Reihenfolge) akzeptieren, aber wenn nun ein &#8220;o&#8221; kommt, wird sich der &#8220;echtheit&#8221;-Automat aufregen. Für die weitere Überprüfung kann er also ignoriert werden. Und erst wenn auch der &#8220;echo&#8221;-Automat nicht mehr weitermachen will (also nach besagtem &#8220;o&#8221;), hat man sein Token gefunden und kann es über die Ausgabefunktion des Automaten auslesen.</p>
<p><strong>Allgemein:</strong> Man habe eine Menge A von Typ-Automaten und eine Eingabesequenz &lt;s<sub>0</sub>, s<sub>1</sub>, s<sub>2</sub>, s<sub>3</sub>, &#8230;, s<sub>n</sub>&gt;</p>
<ol>
<li>Versetze alle Automaten in A in ihren <strong>Ausgangszustand</strong>. (<em>Reset</em>)</li>
<li>Finde alle Automaten in A, <strong>die s<sub>0</sub> akzeptieren</strong> und bilde aus ihnen die Menge A<sub>0</sub></li>
<li>Initialisiere i mit 0. Während 0 &lt;= i &lt; n:
<ul>
<li>Wenn |A<sub>i</sub>| = 0: brich Schleife ab.</li>
<li>Ansonsten: Finde alle Automaten in A<sub>i</sub>, die s<sub>i+1</sub> akzeptieren und bilde aus ihnen die Menge A<sub>i+1</sub></li>
<li>Erhöhe i um 1.</li>
</ul>
</li>
<li>Wenn i=0: Ungültiger Ausdruck.</li>
<li>Ansonsten: Finde einen  <strong>passenden Typ</strong> aus A<sub>i-1</sub> bis A<sub>0</sub>, der sich in einem Ausgabezustand befindet (der Index der entsprechenden Automatenmenge sei j), und erstelle ein Token mit dem Wert &lt;s<sub>0</sub>, s<sub>1</sub>,&#8230;, s<sub>j</sub>&gt; und dem gefundenen Typen.</li>
<li>Fahre mit der restlichen Eingabesequenz fort.</li>
</ol>
<p>Betrachten wir die Laufzeit: Schritt 1 liegt in O(|A|), Schritt 2 ebenfalls. Schritt 3 benötigt im schlimmsten Fall (die Zeichenfolge wird von allen Automaten komplett akzeptiert) eine Laufzeit von O(n*|A|). Schritt 5 kann ebenfalls eine Laufzeit in O(n*|A|) erreichen, wenn kein einziger Automat in einem Ausgabezustand ist, die restlichen Schritte haben einen konstanten Zeitbedarf O(1).</p>
<p>Diese Methode ermittelt also den nächsten Token mit einer Laufzeit von O((2n+2)*|A|+1), also <strong>O(n*|A|)</strong>. Gleichzeitig ist <strong>Erweiterbarkeit</strong> gewährleistet, da die Typ-Automaten sehr leicht zu implementieren sind und der Lexer sie nicht von vornherein kennen muss.</p>
<p><strong>Zuverlässigkeit</strong> ist nur in Schritt 5 fraglich: Was ist der &#8220;passende Typ&#8221; zu einem Token? Hier könnte man ein hierarchisches System einführen, das z.B. festlegt: &#8220;Wenn die Wahl zwischen dem Typ Funktion und dem Typ Bezeichner getroffen werden muss, nimm die Funktion!&#8221;</p>
<p>Die Funktion eines Integer-Automats, die überprüft, ob ein Zeichen akzeptiert wird, könnte z.B. so aussehen:</p>
<pre>public bool Accept(char c)
{
    switch (char)
    {
        case '0': case '1': case '2': case '3': case '4':
        case '5': case '6': case '7': case '8': case '9':
            return true;
        default:
            return false;
    }
}</pre>
<p>Damit kann man leben, oder? Schwieriger wird es erst bei solchen Sachen wie Strings, wo z.B. beachtet werden muss, dass ein gültiges Zeichen, das nach dem Schließen des Strings kommt, natürlich nicht mehr akzeptiert werden darf. (Man müsste also im Automaten selbst weitere Zustandsdaten, z.B. einen boolschen Wert <em>stringClosed</em> oder so, speichern.)</p>
<h3><strong>Fazit</strong></h3>
<p>Um eine größtmögliche Erweiterbarkeit zu gewährleisten und weil ich stolz auf die Idee bin und überprüfen will, wie sie sich umsetzen lässt, werden wir Ansatz 4 implementieren. Ich frage mich allerdings, was &#8220;Pfandflaschenalgorithmus&#8221; auf Englisch heißt&#8230;</p>
<p><strong>Update (30.08.2009): </strong><br />
Eine bessere Analogie für den Algorithmus wäre statt dem Pfandflaschenautomaten wohl ein Rennen oder ein Wettbewerb: derjenige, der am weitesten kommt (&#8220;die meisten Eingaben akzeptiert), ist der Sieger &#8211; außer er bricht dann zusammen, fängt an zu heulen, etc&#8230; (&#8220;außer er befindet sich nicht in einem Ausgabezustand&#8221;) In dem Fall gewinnt der zweite Platz (der aber identisch mit dem ersten sein kann), außer auch dieser kommt mit dem Druck nicht klar. Und so weiter.</p>
<h2>Implementierung</h2>
<p style="text-align: left;"><a href="http://dev.xscheme.de/wp-content/uploads/2009/08/lexer.png"><img class="alignleft size-medium wp-image-940" style="border: 1px solid #bbbbbb; padding: 1em; margin-right: 1em; margin-bottom: 1em;" title="lexer" src="http://dev.xscheme.de/wp-content/uploads/2009/08/lexer-300x124.png" alt="lexer" width="300" height="124" /></a>Bei der Implementierung des Lexers sollten gleich alle verfügbaren Datentypen (Operator, Trennzeichen, Terminalausdruck, &#8230;) in eigenen Klassen gekapselt werden. Das macht die spätere Verwendung einfacher.</p>
<p style="text-align: left;">Zwei Sachen sollten hier näher erläutert werden. Zuerst die Methode <strong><em>signification </em></strong>der Klasse <em>SyntaxType</em>: sie ermittelt anhand eines konkreten Tokens den &#8220;<strong>wirklichen Typ</strong>&#8221; dieses Tokens. Man könnte z.B. einen Grundtyp <em>Identifier</em> definieren (als Unterklasse von <em>Terminal</em>), der alle Buchstabenfolgen (keine Zahlen, keine Sonderzeichen) repräsentiert. Die <em>signification</em>-Methode könnte dann ermitteln ob der Identifier eine Variable, ein Listenname, eine Konstante, etc&#8230; ist und dies zurückliefern. Oder eben oben genanntes Beispiel mit dem Pluszeichen, das abhängig vom Kontext ein Operator oder ein Vorzeichen sein kann.</p>
<p style="text-align: left;">Zweitens das Interface <strong><em>IStateMachine</em></strong>: Es kapselt die für Ansatz 4 (s.o.) benötigten Operationen. (Die Methode <em>IsOutputState</em> fehlt, sollte aber nicht vergessen werden!)</p>
<p style="text-align: left;"><strong>Update (12.08.2009):</strong><br />
Datentypen, die spezielle, angepasste Methoden <em>signification</em> benötigen, müssen als Unterklassen der jeweiligen Typen (hauptsächlich <em>Terminal</em> vermutlich) definiert werden und die Methoden überschreiben. Nur, falls das noch nicht klar war.</p>
<h2 style="text-align: left;">Gesamtfazit</h2>
<p style="text-align: left;">Nun kommen wir leicht an die einzelnen Bestandteile eines Ausdrucks, aber uns fehlen noch die Mittel, damit richtig umzugehen. Der nächste Schritt ist es also, Regeln für unsere verschiedenen Ausdrücke zu erstellen (Welche Art von Parametern benötigt eine Funktion/ein Operator/ein Pattern? Darf eine Funktion verschachtelt ausgeführt werden? Etc&#8230;) und anhand dieser Regeln einen gegebenen Ausdruck zu überprüfen und in eine einfach weiterzuverarbeitende Form zu bringen.</p>
<p style="text-align: left;">Hier kommt der sog. <em>Syntaxbaum</em> ins Spiel. Und der <em>Parser</em>, der ihn erstellt.</p>
<h2>Inhalt</h2>
<ol>
<li><a href="http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/">Einführung: Ein Abenteuer in Teilen</a></li>
<li><strong>Der Lexer</strong></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/">Grundlagen des Parsens</a></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/">Syntax</a><strong><br />
</strong></li>
</ol>
<div id="_mcePaste" style="overflow: hidden; position: absolute; left: -10000px; top: 3149px; width: 1px; height: 1px;">
<ul>
<li>Schneide den gefundenen Ausdruck von der Eingabezeichenfolge ab.</li>
<li>Wenn der Treffer ein Datenmuster ist, wende den Lexer auf alle Unterwerte an und hänge nacheinander ein Pattern-Token, eine öffnende Klammer, die verarbeiteten Unterwerte durch Kommas getrennt und eine schließende Klammer an die Ausgabeliste an.</li>
<li>Wenn der Treffer ein normaler Datentyp ist, erstelle ein Token dieses Typs und hänge es an die Ausgabeliste an.</li>
</ul>
</div>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Wie entwickle ich meine eigene Scriptsprache? Ein Abenteuer in Teilen.</title>
		<link>http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/</link>
		<comments>http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/#comments</comments>
		<pubDate>Tue, 28 Jul 2009 18:19:55 +0000</pubDate>
		<dc:creator>xsc</dc:creator>
				<category><![CDATA[HowTo]]></category>
		<category><![CDATA[Projekte]]></category>
		<category><![CDATA[Theorie]]></category>
		<category><![CDATA[anleitung]]></category>
		<category><![CDATA[eigene programmiersprache]]></category>
		<category><![CDATA[eigene scriptsprache]]></category>

		<guid isPermaLink="false">http://dev.xscheme.de/?p=793</guid>
		<description><![CDATA[In diesem Artikel, dem ersten von vielen, geht es um die Entwicklung einer eigenen Script- oder Programmiersprache. Das sei nur für die erwähnt, die sich Angesichts des Vorgeplänkels der nächsten zwei Absätze fragen: &#8220;Was wird das denn jetzt?&#8221; und dann wieder verschwinden wollen&#8230;
Vorspiel
Neben LastSharp und LeSharp, den beiden Tools, die für eine breite Masse gedacht [...]]]></description>
			<content:encoded><![CDATA[<p><em>In diesem Artikel, dem ersten von vielen, geht es um die Entwicklung einer eigenen Script- oder Programmiersprache. Das sei nur für die erwähnt, die sich Angesichts des Vorgeplänkels der nächsten zwei Absätze fragen: &#8220;Was wird </em>das<em> denn jetzt?</em>&#8221; <em>und dann wieder verschwinden wollen&#8230;</em></p>
<h2>Vorspiel</h2>
<p>Neben LastSharp und LeSharp, den beiden Tools, die für eine breite Masse gedacht und deshalb auch zumindest ein bisschen nützlich sind, arbeite ich noch an zwei eher theoretischen Projekten: UVD (das im Moment ruht) und Lapicon (Loose API Connection Language).</p>
<p>Letzteres ist eine Scriptsprache zum Senden und Verarbeiten von REST-Requests, also zum Verwenden verschiedenster APIs, z.b. dem von Last.FM. Kein großer Leckerbissen für den Otto-Normal-Benutzer also und auch für Entwickler, die sich mit dem Thema beschäftigen, ist die Sprache nicht der Inbegriff von Eleganz. Deshalb mein Entschluss: <strong>Lapicon muss von Grund auf neu entwickelt werden</strong>. Das bedeutet: neue Funktionen, mehr Komfort, bessere Performance, usw&#8230; Alles in allem keine triviale Aufgabe.</p>
<p>Und dann kam mir die Idee, meinen Versuch zu protokollieren und somit allen, die daran interessiert sind, eine <strong>eigene Programmier- oder Scriptsprache zu entwickeln</strong>, ein Stückchen weiterzuhelfen. Eine kleine Reise, ein kleines Abenteuer also.<br />
<span id="more-793"></span></p>
<h2>Ein Hinweis</h2>
<p>Das Konzept, das hier entwickelt wird, eignet sich für Sprachen, die &#8211; so will ich es jetzt aus Ermangelung eines Fachbegriffs mal nennen &#8211; &#8220;blockbasiert&#8221; sind, also so etwa wie <a href="http://de.wikipedia.org/wiki/Pascal_(Programmiersprache)#Hallo_Welt">Pascal</a> oder <a href="http://de.wikipedia.org/wiki/Very_High_Speed_Integrated_Circuit_Hardware_Description_Language#Skelett_eines_VHDL-_Bausteines">VHDL</a>. D.h. man hat (z.B. bei Funktionen) immer einen Start- und einen Endblock, wobei der Endblock überflüssig werden kann, wenn man Sachen wie Zeileneinrückung einbezieht. (Ein Konzept, dass ich, während ich mich in Ruby eingearbeitet habe, bei <a href="http://en.wikipedia.org/wiki/Haml">HAML</a> und SASS kennen- und schätzen gelernt habe.)</p>
<p>Des weiteren werden wir zur Erkennung verschiedener Anweisungen mit <a href="http://de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck">Regular Expressions</a> arbeiten, weshalb man sich dort auskennen sollte. Ein Tutorial gibt es z.B. <a href="http://www.regular-expressions.info/tutorial.html">hier</a> (englisch).</p>
<h2>Reisevorbereitung</h2>
<p>Bevor wir uns überhaupt mit der Sprache selbst beschäftigen, sollten wir folgendes tun:</p>
<ol>
<li><strong>Wir müssen uns überlegen, welche Komponenten wir entwickeln müssen, um Ausdrücke zu erkennen und zu verarbeiten.</strong><br />
Die Schlagworte hier sind <em>Lexer</em> und <em>Parser</em>. (Ich hatte anfangs ein anderes Konzept vorgesehen, das aber einen Haufen Schwächen hatte, weshalb ich jetzt doch wieder auf das klassische Prinzip zurückkomme. Ich werde mich bemühen, das so gut wie möglich darzustellen&#8230;)</p>
<p>Der <a href="http://de.wikipedia.org/wiki/Lexikalischer_Scanner">Lexer</a> nimmt einen Ausdruck und zerlegt ihn in sog. <em>Token</em>, d.h. in kleine Teile, die einen Typ und einen Wert besitzen. Man nehme beispielsweise den Ausdruck &#8220;1+2*sqrt(e)&#8221;. Ein Lexer (auch <em>Tokenizer</em> genannt) könnte daraus eine Liste der folgenden Gestalt fabrizieren:</p>
<pre>integer  : 1
operator : +
integer  : 2
operator : *
id       : sqrt
open     : (
id       : e
close    : )</pre>
<p>Der <a href="http://de.wikipedia.org/wiki/Parser">Parser</a> nimmt nun diese Liste und erstellt daraus einen <em>Syntaxbaum</em>, d.h. eine Repräsentation des Ausdrucks als Baumstruktur. Hier wird vor allem darauf geachtet, dass verschiedene Operatoren verschiedene Prioritäten haben können, dass es Verschachtelungen durch Klammern gibt, etc&#8230; Ein Syntaxbaum für unser Beispiel könnte nach dem Parsen z.B. so aussehen:</p>
<pre>               operator : +
              /            \
        integer : 1     operator : *
                       /            \
                  integer : 2   function : sqrt
                                     |
                                constant : e</pre>
</li>
<li><strong>Wir müssen festlegen, was die Sprache können soll.<br />
</strong>Welche Datenstrukturen sollen zugänglich sein? Kann man Funktionen definieren? Gibt es arithmetische Operationen?<strong> </strong>Schleifen? Man sollte sich eine Liste machen. Für unsere Beispielsprache könnte das so aussehen:</p>
<ul>
<li>Es gibt zwei Datentypen: Zahlen und Strings.</li>
<li>Es gibt Variablen, die aber nur Zahlen enthalten können.</li>
<li>Es gibt eine Ausgabefunktion, die Strings und Zahlen ausgibt.</li>
<li>Es gibt eine Ausgabefunktion, die Zeilenumbrüche erzeugt.</li>
<li>Es gibt eine Eingabefunktion, die Zahlen einliest und in einer Variablen speichert.</li>
<li>Es gibt die arithmetischen Operationen Addition (+), Subtraktion (-), Multiplikation (*), Division (/), die auf ganzen Zahlen arbeiten.</li>
<li>Es gibt Klammern, mit denen man die Ausführungsreihenfolge beeinflussen kann.</li>
<li>Es gibt eine Schleife, die einen Befehl genau n-mal (n ist gegeben) ausführt.</li>
<li>Es gibt drei Funktionen, die jeweils überprüfen, ob eine Zahl größer, kleiner oder gleich 0 ist und bei zutreffendem Ergebnis, einen Fehler ausgeben.</li>
</ul>
<p>Was wir also entwickeln werden, ist ein Taschenrechner.</li>
<li><strong>Wir müssen uns Gedanken dazu machen, wie der Interpreter aufgebaut ist und arbeitet.</strong><br />
Wie genau wird unser Programmcode verarbeitet? Wie arbeitet der Interpreter intern?An dieser Stelle wird klar, warum ich mich dafür entschieden habe, eine &#8220;blockbasierte&#8221; (also mit expliziten Blockanfängen und -enden) Sprache zu entwickeln: es ermöglicht die Ausführung eines Programms Zeile für Zeile. (Zwar wäre es kein unerträglicher Aufwand, auch so etwas wie Klammerstrukturen, ähnlich zu C#, unterstützen zu lassen, aber es geht auch so &#8211; und macht außerdem den Quelltext strukturierter, wie man z.B. an <a href="http://de.wikipedia.org/wiki/Ruby_(Programmiersprache)#Klassenbasierte_Objektorientierung">Ruby</a> sieht.)</p>
<p>Das andere Konzept, das den Interpreter zu einem nützlichen Interpreter macht, habe ich bei der Mikroprogrammierung näher kennengelernt. Man hat einen Instruktionszeiger (<em>Instruction Pointer</em>, <em>IP</em>), der auf die aktuelle Instruktion zeigt und einen <a href="http://de.wikipedia.org/wiki/Stapelspeicher">Stack</a>, der den Wert des Zeigers zwischenspeichern kann. Jede Anweisung sagt dem Interpreter nach ihrer Ausführung, was er nun weiter machen soll. Zyklus:</p>
<ol>
<li>Hole die Anweisung (<em>Statement</em>), auf die der IP gerade zeigt. Ist keine Anweisung vorhanden, brich ab.</li>
<li>Übergib die Anweisung an den Verarbeiter (<em>Processor</em>) und speichere das Ergebnis.</li>
<li>Lies aus dem Ergebnis die folgenden Teile aus: Zeiger-Offset, Zeiger-Aktion und Stack-Aktion.</li>
<li>Wenn die Stack-Aktion &#8220;PUSH&#8221; ist, lege den IP auf den Stack.</li>
<li>Wenn die Zeiger-Aktion &#8220;NULL&#8221; ist, setze den IP auf 0, ist sie &#8220;STACK&#8221;, setze den IP auf die Position, die zuoberst auf dem Stack liegt. Bei &#8220;CONTINUE&#8221; erhöhe den IP um 1.</li>
<li>Wenn die Stack-Aktion &#8220;POP&#8221; ist, nimm das oberste Element vom Stack.</li>
<li>Addiere den Zeiger-Offset auf den Instruktionszeiger.</li>
<li>Gehe zu 1.</li>
</ol>
<p><strong>Beispiel: Schleife, die mindestens einmal ausgeführt wird</strong><br />
(Notation: Zeiger-Offset, Zeiger-Aktion, Stack-Aktion)</p>
<blockquote><p>Schleifenbeginn: 0 / CONTINUE / PUSH<br />
Schleifenrumpf: beliebig<br />
Schleifenbedingung erfüllt: 1 / STACK / NONE<br />
Schleifenbedingung nicht erfüllt: 0 / CONTINUE / POP</p></blockquote>
<p><strong>Beispiel 2: Funktionsaufruf</strong></p>
<blockquote><p>Aufruf: &lt;Adresse+1&gt; / NULL / PUSH<br />
Rumpf: beliebig<br />
Rücksprung: 1 / STACK / POP</p></blockquote>
<p>Der <em>Processor</em> ist das, wo die eigentliche Ausführung  eines Befehls stattfindet. Er tut folgendes:</p>
<ol>
<li>Erstelle mithilfe von Lexer und Parser (siehe oben) den Syntaxbaum des Befehls.</li>
<li>Wenn der Baum Kindknoten hat, werte zuerst die jeweiligen Teilbäume aus. (<em>Top-Down-Methode</em>)</li>
<li>Schaue, ob für den Typ des Wurzelknotens eine Verarbeitungsroutine (<em>Evaluator</em>) existiert. Wenn ja, rufe sie mit den in 2. ermittelten Daten auf und gib ihr Ergebnis zurück, wenn nicht, gib eine Fehlermeldung aus und brich die Gesamtausführung ab.</li>
</ol>
</li>
<li><strong>Und wie werden die programminternen Daten gespeichert?<br />
</strong>Wir benötigen eine Umgebung, in der ein Programm läuft. Diese Umgebung hat vor allem die Aufgabe, Variablen, Objekte, Funktionen, Listen, Arrays, etc&#8230; zu verwalten, also eine große Menge an Daten zu speichern und zugreifbar zu machen. Wenn man von vornherein weiß, was auf einen zukommt (wenn man also einen Interpreter für eine ganz bestimmte und ganz genau definierte Sprache schreibt), kann man es sich einfach machen:</p>
<ul>
<li>einen Speicher für Variablen,</li>
<li>einen Speicher für Funktionen,</li>
<li>einen Speicher für Listen,</li>
<li>&#8230;</li>
</ul>
<p>Die Realisierung als <a href="http://de.wikipedia.org/wiki/Hashtable">Hashtabelle</a> (Wörterbuch, <em>Dictionary</em>) würde sich für jeden einzelnen dieser Speicher anbieten. Eine Hashtabelle ist eine Liste von Schlüssel-Wert-Paaren, wo jeder Wert schnell über seinen Schlüssel adressiert werden kann &#8211; in obigem Fall wären folgende Zuordnungen sinnvoll:</p>
<ul>
<li>[Variablenname =&gt; Variablenwert]</li>
<li>[Funktionsname =&gt; (Funktionsbeginn (Zeiger), Funktionsende (Zeiger))]</li>
<li>[Listenname =&gt; Liste]</li>
<li>&#8230;</li>
</ul>
<p>In meinem Studium wird mir beigebracht, alles so abstrakt wie möglich zu halten, weswegen ich die nun folgende Lösung vorschlage. Hierbei benötigen wir nur zwei Hashtabellen (plus eine geschachtelte) und haben zum einen den Vorteil, dass wir beliebige Daten speichern können, zum anderen, dass die Überprüfung auf doppelte Bezeichner (Variablen-, Funktions- und Listennamen sollten ja nur einmal vorkommen!) sehr einfach wird:</p>
<ul>
<li>Wir verwenden eine Tabelle, um jedem Bezeichner einen Typ zuzuweisen. ([Bezeichner =&gt; Typ])</li>
<li>Wir verwenden eine weitere Tabelle, um jedem Typ eine weitere Hashtabelle zuzuweisen, die wiederum jeden Bezeichner mit seinem Wert verknüpft. ([Typ =&gt; [Bezeichner =&gt; Wert]])</li>
</ul>
<p>Mit entsprechenden Operationen auf diesen beiden Tabellen haben wir nun unsere Umgebung (<em>Environment</em>).</li>
</ol>
<p>Nachdem wir das alles beantwortet haben, können wir loslegen. Aber Halt! Einen wichtigen Punkt haben wir noch nicht angesprochen: Wie verwende ich Regular Expressions so, dass ich zum einen leicht feststellen kann, welchen Anweisungstyp ich vor mir habe, und zum anderen einfach an die gewünschten Daten komme?</p>
<p>Das ist der Punkt, an dem wir unsere praktische Arbeit beginnen werden.</p>
<h2>Inhalt</h2>
<ol>
<li><strong>Einführung: Ein Abenteuer in Teilen</strong></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-1/">Der Lexer</a></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-2/">Grundlagen des Parsens</a></li>
<li><a href="http://dev.xscheme.de/2009/08/wie-entwickle-ich-meine-eigene-scriptsprache-teil-3/">Syntax</a><strong><br />
</strong></li>
</ol>
]]></content:encoded>
			<wfw:commentRss>http://dev.xscheme.de/2009/07/eigene-programmiersprache-scriptsprach/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
	</channel>
</rss>
