编译原理系列之词法分析

2013-05-14 posted in [点滴技术] with tags: [compiler, lexical-analysis, and FSM]

对于每一具体阶段的学习记录，我想分为几个方面来加以阐述：此阶段的目标、具体过程、重要工具、重要算法、关于实现、补充说明。

如此，各个方面相对具体，也显得条理清晰些。

词法分析的目标

如同在概述部分所说明的，词法分析即是将源程序（字符串）分割为token的过程，此过程中会根据源语言的形式化定义，通过自动机等工具来判断是否源程序无词法错误，最终将由下一阶段的输出是：

当然词法分析另一个很重要的目的就是去除无关的元素，如whitespace(空格，制表符、换行符等）、注释等，这样就可以省去语法分析阶段的相应工作、提高语法分析的效率和降低复杂度。

在说明过程之前，先说明几个重要的概念或者方法。

token: 是由token class(或者也称为token class)和指向符号表的指针组成的一个组对（pair）
Regular Expression：即正则表达式，是形式化描述语言的一种方法，日常中使用的语言如perl, python 等语言中的正则表达式即是此意，一个正则表达式匹配一种语言。
有限状态机：由状态和状态转移组成的一种工具，通常正则表达式的内部实现即是通过FSM来实现的；当然在编译器的实现中，FSM也用作语言的匹配判断实现。

例如C语言变量的正则表达式为：

V = [a-zA-Z_][a-zA-Z0-9_]*

而此正则表达式的FSM为：

FSM

FSM也分为DFA（确定的有限自动机）和NFA（不确定有限自动机）,DFA是一种特殊的NFA，特殊之处在于同一个状态的出口转移边在面对同一输入字符时只能有一个。

词法分析过程所用到的技术（如正则表达式、FSM、KMP算法）等不只局限于编译器的编写，在CS的其它领域也有着广泛的应用，如基于Python的文档撰写工具Sphinx中对于rst源文件的分析便用到了FSM，当然Sphinx可认为是将rst转换为html/latex/epub等语言的编译器。

<< Previous Next >>

	Key	Action	Key	Action
Small Scroll	j	Scroll Down	k	Scroll Up
Big Scroll	b	Scroll to Bottom	t	Scroll to Top
Post Navigation	n	Next Post(if exists)	p	Previous Post(if exists)
Page Navigation	h	Go to Blog's Home Page	a	Go to Blog's Archive Page
Page Navigation	c	Go to Blog's Category Page	?	Show this help
Misc	s	Go to Search Box	q	hide the help