String index structure: suffix automaton

Suffix automaton

Deterministic acyclic finite state automaton,也叫directed acyclic word graph(DAWG),是一个识别若干字串的无环DFA。识别若干字串的所有DAWG中,存在唯一一个状态数最少的DAWG,称作minimal DAWG,即识别这个字串集的DFA。

DAWG在有些文献中也指识别一个字串的所有后缀的自动机,这种用法有个更常见的名称:suffix automaton,此时该自动机可以看做是字串所有后缀的DAWG。

Read More

使用Burkhard-Keller tree优化近似串匹配

Approximate string matching

近似字符串匹配问题。

Levenshtein edit distance

在metric space中衡量两个字符串差异程度的一个指标,即通过一系列单字符的编辑操作把字符串A变成字符串B所需的最小编辑次数,其中的编辑操作可以是插入字符、删除字符以及修改字符。

计算编辑距离有个经典的Wagner-Fischer算法,使用了动态规划,用d(i,j)表示把字符串A的前i个字符变成字符串B的前j个字符所需的最小编辑次数(即子串的编辑距离)。

Read More

RuCTFE 2012参赛记

海底捞火锅

RuCTFE 是一个面向全世界的信息安全比赛,每个队伍保护自己的机器,攻击其他队伍的机器,长达8个小时紧张激烈的对抗和赛前犒赏队员的火锅标志着它是这一年我参与的最有意义的事之一,因而在这里简要记录下来。有幸收到《Metasploit渗透测试指南》的译者孙松柏的邀请,成为 blue-lotus 队的一员,和网络安全实验室的同学一起出发,晚上一群人去吃牡丹园的海底捞火锅壮行。

Read More