# Cargar Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


import os, json, numpy as np
from itertools import chain
import time, random, numpy as np, pandas as pd
import matplotlib.pyplot as plt


def vec_global(path, dtype=np.int64):
    with open(path, encoding="utf-8") as f:
        d = json.load(f)
    if isinstance(d, dict):
        return np.fromiter(
            chain.from_iterable(v for v in d.values() if isinstance(v, (list, tuple))),
            dtype=dtype,
        )
    def walk(x):
        if isinstance(x, dict):
            for v in x.values(): yield from walk(v)
        elif isinstance(x, (list, tuple, set)):
            for v in x: yield from walk(v)
        elif isinstance(x, (np.integer, int)): yield int(x)
        elif isinstance(x, (np.floating, float)): yield int(x)
    return np.fromiter(walk(d), dtype=dtype)

# Listas de posteo (Unidad 3)
RUTA_P = "/content/drive/MyDrive/MCDI/3A_AdA/listas-posteo-con-perturbaciones"
p016 = vec_global(f"{RUTA_P}/listas-posteo-con-perturbaciones-p=016.json")
p032 = vec_global(f"{RUTA_P}/listas-posteo-con-perturbaciones-p=032.json")
p064 = vec_global(f"{RUTA_P}/listas-posteo-con-perturbaciones-p=064.json")
p128 = vec_global(f"{RUTA_P}/listas-posteo-con-perturbaciones-p=128.json")
p256 = vec_global(f"{RUTA_P}/listas-posteo-con-perturbaciones-p=256.json")
p512 = vec_global(f"{RUTA_P}/listas-posteo-con-perturbaciones-p=512.json")

# Archivos de consultas
RUTA_C = "/content/drive/MyDrive/MCDI/4A_AdA/Consultas-20251029"
cons1 = vec_global(f"{RUTA_C}/consultas-1-listas-posteo.json")
cons2 = vec_global(f"{RUTA_C}/consultas-2-listas-posteo.json")
cons3 = vec_global(f"{RUTA_C}/consultas-3-listas-posteo.json")
cons4 = vec_global(f"{RUTA_C}/consultas-4-listas-posteo.json")

# Vista de longuitud
for name, arr in [("p016",p016),("p032",p032),("p064",p064),("p128",p128),("p256",p256),("p512",p512),
                  ("cons1",cons1),("cons2",cons2),("cons3",cons3),("cons4",cons4)]:
    print(f"{name}: n={arr.size}")

p016: n=191852
p032: n=191852
p064: n=191852
p128: n=191852
p256: n=191852
p512: n=191852
cons1: n=10000
cons2: n=10000
cons3: n=10000
cons4: n=10000


class CmpCounter:
    def __init__(self): self.count = 0
    def lt(self, a, b): self.count += 1; return a < b
    def le(self, a, b): self.count += 1; return a <= b

def timed(fn, *args, **kwargs):
    t0 = time.perf_counter()
    out = fn(*args, **kwargs)
    t1 = time.perf_counter()
    return out, (t1 - t0)


def binary_search_lb(A, x, lo=0, hi=None, cmp=None):
    if hi is None: hi = len(A)
    if cmp is None: cmp = CmpCounter()
    while lo < hi:
        mid = (lo + hi) // 2
        if cmp.lt(A[mid], x):
            lo = mid + 1
        else:
            hi = mid
    return lo, cmp.count


def search_B0(A, x, sp=0, cmp=None):
    if cmp is None: cmp = CmpCounter()
    i, n = sp, len(A)
    while i < n and cmp.lt(A[i], x):
        i += 1
    return i, cmp.count


def search_B1(A, x, sp=0):
    n = len(A)
    cmp = CmpCounter()
    i, p = 1, 0
    while sp + i < n and cmp.lt(A[sp + i], x):
        p = i
        i <<= 1
    lo, hi = sp + p, min(n, sp + i + 1)
    pos, _ = binary_search_lb(A, x, lo, hi, cmp=cmp)
    return pos, cmp.count


def search_B2(A, x, sp=0):
    n = len(A)
    cmp = CmpCounter()
    t, prev, pt = 0, 0, 2  # 2,4,16,256,...
    while sp + pt - 1 < n and cmp.lt(A[sp + pt - 1], x):
        prev = pt
        t += 1
        pt = 2 ** (2 ** t)
        if pt <= prev: pt = prev + 1
    lo, hi = sp + prev, min(n, sp + pt)
    pos, _ = binary_search_lb(A, x, lo, hi, cmp=cmp)
    return pos, cmp.count


class SkipNode:
    __slots__ = ("key", "forward")
    def __init__(self, key, level):
        self.key = key
        self.forward = [None]*(level+1)

class SkipList:
    def __init__(self, p=0.5, max_level=32, seed=12345):
        self.p = p; self.max_level = max_level
        random.seed(seed)
        self.header = SkipNode(None, max_level)
        self.level = 0
    def _rand_level(self):
        lvl = 0
        while random.random() < self.p and lvl < self.max_level:
            lvl += 1
        return lvl
    def insert(self, key):
        update = [None]*(self.max_level+1)
        x = self.header
        for i in range(self.level, -1, -1):
            while x.forward[i] is not None and x.forward[i].key < key:
                x = x.forward[i]
            update[i] = x
        lvl = self._rand_level()
        if lvl > self.level:
            for i in range(self.level+1, lvl+1):
                update[i] = self.header
            self.level = lvl
        node = SkipNode(int(key), lvl)
        for i in range(lvl+1):
            node.forward[i] = update[i].forward[i]
            update[i].forward[i] = node
    def lower_bound(self, x, cmp=None):
        if cmp is None: cmp = CmpCounter()
        cur = self.header
        for i in range(self.level, -1, -1):
            while cur.forward[i] is not None and cmp.lt(cur.forward[i].key, x):
                cur = cur.forward[i]
        cur = cur.forward[0]
        return (cur.key if cur is not None else None), cmp.count

def build_skiplist(A, seed=12345, p=0.5, max_level=32):
    sl = SkipList(p=p, max_level=max_level, seed=seed)
    for v in A: sl.insert(int(v))
    return sl


def EvalAlgs(A_sorted, qs, seed=123, use_skiplist=True):
    if use_skiplist:
        sl = build_skiplist(A_sorted, seed=seed)
    algos = {
        "Binaria": lambda arr, x: binary_search_lb(arr, x),
        "B0":      lambda arr, x: search_B0(arr, x),
        "B1":      lambda arr, x: search_B1(arr, x),
        "B2":      lambda arr, x: search_B2(arr, x),
    }
    if use_skiplist:
        algos["skiplist"] = lambda arr, x: sl.lower_bound(x)

    rows = []
    for name, fn in algos.items():
        comps, times = [], []
        for x in qs:
            (pos, c), t = timed(fn, A_sorted, x)
            comps.append(c); times.append(t)
        rows.append({
            "algoritmo":        name,
            "consultas":        int(len(qs)),
            "prom_comp/consul": float(np.mean(comps)),
            "t_total_s":        float(np.sum(times)),
            "t_prom_s":         float(np.mean(times)),
        })
    return pd.DataFrame(rows).sort_values("algoritmo").reset_index(drop=True)

def EvalData(dataset_arr, consultas_arr, dataset_name="p=016", consulta_name="cons1",
             sample_k=None, seed=42, use_skiplist=True):
    rng = np.random.default_rng(seed)
    A = np.sort(dataset_arr, kind="stable")
    qs = consultas_arr
    if (sample_k is not None) and (len(qs) > sample_k):
        idx = rng.choice(len(qs), size=sample_k, replace=False)
        qs = qs[idx]

    df = EvalAlgs(A, qs, seed=seed, use_skiplist=use_skiplist)  # <— renombrada
    df.insert(0, "dataset", dataset_name)
    df.insert(1, "consulta", consulta_name)

    cols = ["dataset","consulta","algoritmo","consultas","prom_comp/consul","t_total_s","t_prom_s"]
    out = df[cols].sort_values("algoritmo").reset_index(drop=True)
    display(out)
    return out


results_p016_cons1 = EvalData(p016, cons1, dataset_name="p=016", consulta_name="cons1", seed=42, use_skiplist=True)


results_p016_cons2 = EvalData(p016, cons2, dataset_name="p=016", consulta_name="cons2", seed=42, use_skiplist=True)


results_p016_cons3 = EvalData(p016, cons3, dataset_name="p=016", consulta_name="cons3", seed=42, use_skiplist=True)


results_p016_cons4 = EvalData(p016, cons4, dataset_name="p=016", consulta_name="cons4", seed=42, use_skiplist=True)


pd_global = pd.concat([results_p016_cons1, results_p016_cons2, results_p016_cons3, results_p016_cons4],ignore_index=True)
#display(pd_global)


def plot_results(df, value_col, suptitle, xlabel, fmt="{:.6f}"):
    algos = list(df["algoritmo"].drop_duplicates())
    fig, axes = plt.subplots(len(algos), 1, figsize=(9, 1.8*len(algos)), sharex=False)
    if len(algos) == 1:
        axes = [axes]
    for ax, algo in zip(axes, algos):
        sub = df[df["algoritmo"] == algo]
        cons_order = list(sub["consulta"].drop_duplicates())
        vals = sub.set_index("consulta")[value_col].reindex(cons_order)
        ax.barh(cons_order, vals.values)
        for i, v in enumerate(vals.values):
            if pd.notna(v):
                ax.text(v, i, f" {fmt.format(v)}", va="center", ha="left", fontsize=8)
        ax.set_title(algo)
        ax.set_ylabel("consulta")
    axes[-1].set_xlabel(xlabel)
    fig.suptitle(suptitle, y=0.995, fontsize=12)
    plt.tight_layout()
    plt.show()

# 1) Tiempo promedio (s)
plot_results(
    pd_global,
    value_col="t_prom_s",
    suptitle="Tiempo promedio por consulta (s)",
    xlabel="segundos por consulta",
    fmt="{:.6f}"
)

# 2) Comparaciones promedio por consulta
plot_results(
    pd_global,
    value_col="prom_comp/consul",
    suptitle="Comparaciones promedio por consulta",
    xlabel="comparaciones promedio",
    fmt="{:.2f}"
)

PRÁCTICA 4A: REPORTE ESCRITO. EXPERIMENTOS Y ANÁLISIS DE ALGORITMOS DE BÚSQUEDA POR COMPARACIÓN.¶

Introducción¶

Conexión de Google Drive con Google Colab¶

Paqueterías usadas¶

Extracción de archivos desde Google Drive¶

Algoritmos de búsqueda¶

Parámetros de desempeño¶

Binaria¶

B0: secuencial¶

B1: doubling + binaria¶

B2: no acotada con crecimiento doble-exponencial¶

SkipList¶

Comparaciones¶

Resultados¶

Archivo p=016 con el archivo de consulta cons1¶

Archivo p=016 con el archivo de consulta cons2¶

Archivo p=016 con el archivo de consulta cons3¶

Archivo p=016 con el archivo de consulta cons4¶

Conclusión¶

Referencias¶

	dataset	consulta	algoritmo	consultas	prom_comp/consul	t_total_s	t_prom_s
0	p=016	cons1	B0	10000	29.5284	0.045016	0.000005
1	p=016	cons1	B1	10000	9.7896	0.023589	0.000002
2	p=016	cons1	B2	10000	10.1000	0.026562	0.000003
3	p=016	cons1	Binaria	10000	17.6297	0.036202	0.000004
4	p=016	cons1	skiplist	10000	21.9627	0.030156	0.000003

	dataset	consulta	algoritmo	consultas	prom_comp/consul	t_total_s	t_prom_s
0	p=016	cons2	B0	10000	503.5401	0.773648	0.000077
1	p=016	cons2	B1	10000	17.9671	0.040135	0.000004
2	p=016	cons2	B2	10000	18.5620	0.045553	0.000005
3	p=016	cons2	Binaria	10000	17.6827	0.037758	0.000004
4	p=016	cons2	skiplist	10000	25.7413	0.035895	0.000004

	dataset	consulta	algoritmo	consultas	prom_comp/consul	t_total_s	t_prom_s
0	p=016	cons3	B0	10000	7575.7269	14.020803	0.001402
1	p=016	cons3	B1	10000	25.8497	0.056442	0.000006
2	p=016	cons3	B2	10000	20.8490	0.050681	0.000005
3	p=016	cons3	Binaria	10000	17.6385	0.039188	0.000004
4	p=016	cons3	skiplist	10000	29.8543	0.057508	0.000006

	dataset	consulta	algoritmo	consultas	prom_comp/consul	t_total_s	t_prom_s
0	p=016	cons4	B0	10000	98816.2924	171.919109	0.017192
1	p=016	cons4	B1	10000	32.7487	0.074762	0.000007
2	p=016	cons4	B2	10000	21.6608	0.057602	0.000006
3	p=016	cons4	Binaria	10000	17.6355	0.043827	0.000004
4	p=016	cons4	skiplist	10000	33.6267	0.107717	0.000011