Árvore Patrícia¶

Apresentação para o seminário da disciplina Projeto de Algoritmos II

Integrantes¶

Eduardo Gil Serrão Cardoso
Gabriela Souza Maximino
Igor Matheus Souza Moreira
Marco Aurélio Lima do Nascimento Júnior

Agenda¶

Introdução
- Pesquisa Digital
- O que é PATRICIA?
A árvore PATRICIA
Complexidade das operações
Comparação com outras estruturas de dados
Aplicações
Conclusões
Referências

Introdução¶

Tem-se uma maior capacidade de armazenamento em dispositivos de memória (primária e secundária);
Arquivos de grande conteúdo (que estão na RAM) puderam ser manipulados;
Problema: como recuperar uma informação em meio a tantas dentro desse arquivo?
Solução: métodos de pesquisa: sequencial, binária… e pesquisa digital!

Voltar ao topo

Pesquisa Digital¶

Arquivos são divididos em registros. Cada registro possui uma chave;
O objetivo das pesquisas em geral é encontrar, baseado em uma chave de busca, chaves iguais no arquivo;
A busca digital consiste em representar essas chaves como dígitos, podendo ser divisíveis;
A estrutura básica para uma pesquisa digital é a árvore digital;
As árvores digitais também são conhecidas como Trie (reTRIEval);
A árvore PATRICIA é uma árvore digital!

Voltar ao topo

O que é a PATRICIA?¶

Acrônimo para *P* ractical *A* lgorithm *t* o *R* etrieve *I* nformation *C* oded *i* n *A* lphanumeric (Algoritmo Prático para Recuperar Informação Codificada em Alfanumérico);
Criada por Donald R. Morrison em 1968 (referência abaixo);
Implementação eficiente da árvore digital binária.

Morrison, D. R. (1968). PATRICIA—practical algorithm to retrieve information coded in alphanumeric. Journal of the ACM (JACM), 15(4), 514-534.

Voltar ao topo

A árvore PATRICIA¶

Visão Geral¶

Usaremos as sete palavras casco, cascalho, cascata, dama, domando, dominar e domínio para representar as árvores.

Árvore Trie: cada nível representa um caractere
- Problema: gera muitos nós.

Árvore Radix: árvore de prefixos.
- Melhoria: diminui o número de nós criados.

Árvore Patrícia: uma árvore Trie compacta... em algumas definições.

Voltar ao topo

Disclaimer¶

Algumas definições diferentes foram encontradas:

PATRICIA enquanto árvore Trie compacta;
PATRICIA enquanto variação da árvore Radix 2 (Radix binária).

Optamos por nos ater à definição de árvore PATRICIA como variação de árvore Trie.

Voltar ao topo

Definições e Propriedades¶

Estritamente binária;
Filhos unários de nós são compactados com seus respectivos pais;
Cada nó guarda a posição da chave a partir da qual as sub-árvores começam a se diferenciar, possibilitando as comparações;
As chaves são guardadas apenas nos nós-folha.

Voltar ao topo

Classe `Node`¶

In [1]:

class Node:

    def __init__(self, pos, val, prefixo):

        """
        Unidade basica
        :param int pos:
        :param str val:
        :param str prefixo:
        """

        self.filhos = [None, None]

        self.prefixo = prefixo
        
        self.pos = pos
        
        self.val = ord(val)

    def get(self, palavra):

        if palavra[:self.pos] != self.prefixo or len(palavra) <= self.pos: return 0

        valor = ord(palavra[self.pos])

        if valor <= self.val:

            return self.filhos[0]

        return self.filhos[1]

    def derivados(self):

        derivados = []

        for i in self.filhos:

            if type(i) == str: derivados.append(i[:-1])

            else: derivados += i.derivados()

        return derivados

    def __repr__(self):

        return "[{}|{}]".format(self.pos, chr(self.val))

Voltar ao topo

Classe `Arvore`¶

In [2]:

class Arvore:

    def __init__(self, raiz):

        """
        Inicia a árvore
        :param str raiz:
        """

        self.raiz = raiz + "$"

    def get_intersect(self, p1, p2):

        """
        Buca o ponto onde duas strings de diferenciam
        :param str p1:
        :param str p2:
        :return int:
        """
        for i in range(len(p1)):

            if len(p2) > i:

                if p1[i] != p2[i]: return i

    def insere(self, palavra):

        """
        Insere uma string na árvore
        :param str palavra:
        :return None:
        """

        # print("Inserindo %s" % palavra)

        if self.check(palavra):

            print("[Erro] Palavra já inserida")
            
            return

        palavra += '$'

        pai = None
        
        node = self.raiz
        
        i = 0

        while 1:

            # Caso nó folha

            if type(node) == str:

                pos = self.get_intersect(palavra, node)
                
                # Caso nó folha é raiz também

                if pai is None:

                    l = sorted([(ord(palavra[pos]), palavra), (ord(node[pos]),node)])
                    
                    self.raiz = Node(pos, chr(l[0][0]), l[0][1][:pos])
                    
                    self.raiz.filhos = [k[1] for k in l]

                    return

                # Caso padrão

                else:

                    lado = pai.filhos.index(node)

                    l = sorted([(ord(palavra[pos]), palavra), (ord(node[pos]),node)])

                    pai.filhos[lado] = Node(pos, chr(l[0][0]), l[0][1][:pos])
                    
                    pai.filhos[lado].filhos = [k[1] for k in l]

                    return

            else:

                prox = node.get(palavra)

                # Caso prefixo não combina

                if not prox:

                    pos = self.get_intersect(palavra, node.prefixo)

                    l = sorted([(ord(palavra[pos]), palavra), (ord(node.prefixo[pos]),node)])

                    # Caso raiz

                    if pai is None:

                        self.raiz = Node(pos, chr(l[0][0]), palavra[:pos])

                        self.raiz.filhos = [k[1] for k in l]

                        return

                    else:

                        lado = pai.filhos.index(node)
                        
                        pai.filhos[lado] = Node(pos, chr(l[0][0]), palavra[:pos])
                        
                        pai.filhos[lado].filhos = [k[1] for k in l]

                        return

                # Base de iteração

                else:

                    pai = node
                    
                    node = prox

    def check(self, palavra):

        palavra += '$'

        node = self.raiz

        while 1:

            if type(node) == str:

                return node == palavra

            next = node.get(palavra)
            
            if next:

                node = next

            else:

                return False

    def remove(self, palavra):

        if not self.check(palavra):

            print("[Erro] Palavra não encontrada")
            return

        palavra += '$'

        avo = None
        pai = None
        node = self.raiz

        while 1:

            if type(node) == str:

                if pai is None:

                    print("[Erro] Não é possível remover único item da arvore")
                    
                    return

                else:

                    pai.filhos.remove(node)
                    
                    novo_sucessor = pai.filhos[0]

                    if avo is None:

                        self.raiz = novo_sucessor
                        
                        del pai

                        return

                    else:

                        index = avo.filhos.index(pai)
                        
                        avo.filhos[index] = novo_sucessor
                        
                        del pai

                        return

            else:

                prox = node.get(palavra)

                if pai is None:

                    pai = node
                    
                    node = prox

                else:

                    avo = pai
                    
                    pai = node
                    
                    node = prox

    def derivados(self, prefixo):

        """
        Exibe folhas derivadas de determinado prefixo
        :param str prefixo:
        :return str[]:
        """

        tam = len(prefixo)
        
        node = self.raiz

        while 1:

            if type(node) == str:

                if node[:tam] == prefixo:

                    return [node[:-1]]

                else:

                    return []

            else:

                if node.prefixo == prefixo or node.prefixo[:tam] == prefixo:

                    return node.derivados()

                next = node.get(prefixo)

                if next:
                    
                    node = next
                    
                else:
                    
                    return []

Voltar ao topo

Na prática¶

Exemplo¶

Realizaremos o mesmo exemplo exposto anteriormente, só que na prática.

In [43]:

tree = Arvore("casco")
tree.raiz

Out[43]:

'casco$'

Ao visualizar a raíz, notamos a presença de uma string. Isso quer dizer que estamos em um nó folha, fato este representado pelo $$$ que finaliza a palavra.

In [46]:

type(tree.raiz)

Out[46]:

str

Naturalmente, pelo fato desta árvore conter apenas uma palavra, não há uso de objetos Node, tampouco há a presença de filhos:

In [48]:

try:
    tree.raiz.filhos
except AttributeError:
    print("Não há filhos!")

Não há filhos!

In [ ]:

# tree.raiz.filhos

A inserção de mais uma palavra fará com que o objeto str seja substituído por um Node, e que a profundidade da árvore aumente.

In [49]:

tree.insere("cascalho")
tree.raiz

Out[49]:

[4|a]

In [50]:

tree.raiz.filhos

Out[50]:

['cascalho$', 'casco$']

Sigamos adiante com a adição das demais palavras:

In [51]:

tree.insere("cascata")
tree.insere("dama")
tree.insere("domando")
tree.insere("dominar")
tree.insere("domínio")

Vejamos como a árvore está em relação à imagem vista anteriormente, replicada abaixo por conveniência:

Profundidade 0:

In [52]:

tree.raiz

Out[52]:

[0|c]

Profundidade 1:

In [53]:

tree.raiz.filhos

Out[53]:

[[4|a], [1|a]]

Profundidade 2:

In [54]:

(tree.raiz.filhos[0].filhos + 
 tree.raiz.filhos[1].filhos)

Out[54]:

[[5|l], 'casco$', 'dama$', [3|a]]

Para efeito ilustrativo, adicionaremos a partir daqui espaços vazios quando houver folhas (objetos Node sem filho)

Profundidade 3:

In [55]:

(tree.raiz.filhos[0].filhos[0].filhos + 
 [""] +
 [""] +
 [""] +
 [""] +
 tree.raiz.filhos[1].filhos[1].filhos)

Out[55]:

['cascalho$', 'cascata$', '', '', '', '', 'domando$', [3|i]]

Profundidade 4:

In [56]:

([""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 [""] +
 tree.raiz.filhos[1].filhos[1].filhos[1].filhos)

Out[56]:

['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 'dominar$',
 'domínio$']

Voltar ao topo

Teste de confiabilidade¶

A fim de garantir a confiabilidade da estrutura de dados, fizemos um teste intensivo de inserção de palavras, valendo-nos do dicionário em português do Brasil fornecido pelo LibreOffice.

In [76]:

from random import shuffle

In [77]:

def load_dict(path):
    with open(path, "r", encoding="utf-8") as file:
        return [line.strip("\n") for line in file.readlines()]

Carreguemos o dicionário:

In [78]:

pt_br = load_dict("./dictionaries/palavras.txt")

In [96]:

print(f"O dicionário possui {len(pt_br)} palavras.")

O dicionário possui 320139 palavras.

O teste consiste na inserção, verificação e remoção de palavras de forma aleatória. Dessa forma, precisamos de três cópias do dicionário:

In [79]:

load   = pt_br.copy()
check  = pt_br.copy()
remove = pt_br.copy()

In [80]:

print(f"load[:5]:   {load[:5]}")
print(f"check[:5]:  {check[:5]}")
print(f"remove[:5]: {remove[:5]}")

load[:5]:   ['a', 'ª', 'à', 'á', 'ã']
check[:5]:  ['a', 'ª', 'à', 'á', 'ã']
remove[:5]: ['a', 'ª', 'à', 'á', 'ã']

Vamos utilizar a função shuffle, do módulo random, para obter versões aleatorizadas do dicionário:

In [90]:

shuffle(load)
shuffle(check)
shuffle(remove)

In [91]:

print(f"load[:5]:   {load[:5]}")
print(f"check[:5]:  {check[:5]}")
print(f"remove[:5]: {remove[:5]}")

load[:5]:   ['diftógrafo', 'cientifização', 'manolita', 'xantematina', 'ácoros-bastardos']
check[:5]:  ['pau-morcego', 'executado', 'catartínico', 'coptotermes', 'alveoliforme']
remove[:5]: ['circungirar', 'colossigmoidostômico', 'francoáceo', 'ofiuroideo', 'asquistítico']

Por fim, seguiremos adiante com o teste propriamente dito. Basicamente, a expectativa é que a primeira palavra inserida seja a primeira da lista load e termine com a primeira palavra de remove.

In [92]:

tree = Arvore(load[0])
tree.raiz

Out[92]:

'diftógrafo$'

In [93]:

print("Inserindo...")

for word in load[1:]:
    # print(f"Inserting {word}...")
    tree.insere(word)
    if not tree.check(word):
        raise ValueError(f"Não pude encontrar a palavra {word}!")

print("Verificando...")

for word in check:
    # print(f"Verifying {word}...")
    if not tree.check(word):
        raise ValueError(f"Não pude verificar que a palavra {word} está mesmo na árvore!")

print("Removendo...")

for word in remove[1:]:
    # print(f"Removing {word}...")
    tree.remove(word)
    if tree.check(word):
        raise ValueError(f"Não consegui remover a palavra {word}!")

print("Sucesso.")

Inserindo...
Verificando...
Removendo...
Sucesso.

In [95]:

tree.raiz

Out[95]:

'circungirar$'

Voltar ao topo

Complexidade das operações¶

Busca: $O(|chave|)$;
Inserção: $O(|chave| + |X|)$;
Remoção: $O(|chave| + |X|)$;
Listagem de todos os registros que contêm determinado prefixo: $O(|s| + k)$.

Voltar ao topo

Comparação com outras estruturas de dados¶

Compacta em relação a Trie;
Problema de caminhos de uma única direção resolvido;
Evita o problema de desperdício de memória nos nós internos da Trie (cada nó da árvore PATRICIA contém a posição da chave que deve ser comparada e o dígito a ser usado nessa comparação).

Voltar ao topo

Aplicações¶

Armazenamento de dados no Ethereum;
Bloqueio de IPs pelo Sqreen;
Indexação de arquivos XML.

Voltar ao topo

Fim. Obrigado pela atenção :)¶

Perguntas?

Árvore Patrícia¶

Integrantes¶

Agenda¶

Introdução¶

Pesquisa Digital¶

O que é a PATRICIA?¶

A árvore PATRICIA¶

Visão Geral¶

Disclaimer¶

Definições e Propriedades¶

Classe Node¶

Classe Arvore¶

Na prática¶

Exemplo¶

Teste de confiabilidade¶

Complexidade das operações¶

Comparação com outras estruturas de dados¶

Aplicações¶

Fim. Obrigado pela atenção :)¶

Classe `Node`¶

Classe `Arvore`¶