Probability Distribution Function – Tech Interview Dot Org

Write code to generate all possible combinations of ‘r’ elements in a given array of size ‘n’?

💡Strategies for Solving This Problem

Statistics and Sampling

Got this at Two Sigma in 2024. Tests understanding of probability distributions, sampling, and implementing statistical functions from scratch. Common in quantitative trading interviews.

The Problem

Implement a function that samples from a custom probability distribution given as discrete probabilities.

Example: Given array [0.1, 0.3, 0.4, 0.2], return index 0 with 10% probability, index 1 with 30%, index 2 with 40%, index 3 with 20%.

Approach 1: Linear Search

Generate random number [0, 1). Walk through array adding probabilities until sum exceeds random number.

Algorithm:

probs = [0.1, 0.3, 0.4, 0.2]
r = random()  // e.g. 0.65
sum = 0
for i, p in probs:
    sum += p
    if sum >= r:
        return i

Example: r=0.65

0.1 < 0.65, continue
0.1 + 0.3 = 0.4 < 0.65, continue
0.4 + 0.4 = 0.8 >= 0.65, return index 2 ✓

Time: O(n) per sample

Approach 2: Binary Search with CDF (Optimal) ✓

Pre-compute cumulative distribution function (CDF), then use binary search.

CDF: [0.1, 0.4, 0.8, 1.0]

To sample:

Generate r = random()
Binary search CDF for first value >= r
Return that index

Time: O(n) setup, O(log n) per sample

Much better when sampling multiple times from same distribution.

Approach 3: Alias Method (Advanced)

Pre-process into O(n) space structure that allows O(1) sampling. Complex but optimal for many samples.

Used in high-frequency systems where sampling speed is critical.

Edge Cases

Probabilities don't sum to 1: Normalize first
Zero probabilities: Skip in CDF
Floating point errors: Use epsilon comparisons
Empty array: Error or return null
Single element: Always return 0

At Two Sigma

I initially did linear search. Interviewer said "You'll sample millions of times. Can you do better?" Then I did CDF with binary search. He asked about space-time tradeoff and mentioned alias method. We discussed when each approach is best.

✅Solution

Solution: CDF with Binary Search

class ProbabilityDistribution {
    constructor(probabilities) {
        if (!probabilities || probabilities.length === 0) {
            throw new Error('Empty probability array');
        }

        this.probabilities = probabilities;
        this.cdf = this.buildCDF(probabilities);
    }

    buildCDF(probs) {
        // Normalize if needed
        const sum = probs.reduce((a, b) => a + b, 0);
        if (Math.abs(sum - 1.0) > 1e-6) {
            probs = probs.map(p => p / sum);
        }

        // Build cumulative distribution
        const cdf = [];
        let cumulative = 0;

        for (const p of probs) {
            cumulative += p;
            cdf.push(cumulative);
        }

        // Ensure last value is exactly 1.0 (handle float errors)
        cdf[cdf.length - 1] = 1.0;

        return cdf;
    }

    sample() {
        const r = Math.random();

        // Binary search in CDF
        let left = 0;
        let right = this.cdf.length - 1;

        while (left < right) {
            const mid = Math.floor((left + right) / 2);

            if (this.cdf[mid] < r) {
                left = mid + 1;
            } else {
                right = mid;
            }
        }

        return left;
    }

    // Sample multiple times and return frequency distribution
    sampleMultiple(n) {
        const counts = Array(this.probabilities.length).fill(0);

        for (let i = 0; i < n; i++) {
            counts[this.sample()]++;
        }

        // Convert to percentages
        return counts.map(c => (c / n * 100).toFixed(2) + '%');
    }
}

// Test
const probs = [0.1, 0.3, 0.4, 0.2];
const dist = new ProbabilityDistribution(probs);

console.log('Expected probabilities:', probs.map(p => (p*100) + '%'));
console.log('Sampled 100,000 times:', dist.sampleMultiple(100000));

/* Expected output:
Expected probabilities: ['10%', '30%', '40%', '20%']
Sampled 100,000 times: ['10.01%', '29.98%', '40.02%', '19.99%']
*/

Alternative: Linear Search (Simple)

function sampleLinear(probabilities) {
    const r = Math.random();
    let cumulative = 0;

    for (let i = 0; i < probabilities.length; i++) {
        cumulative += probabilities[i];
        if (r < cumulative) {
            return i;
        }
    }

    // Should never reach here if probs sum to 1
    return probabilities.length - 1;
}

// Test
const probs = [0.1, 0.3, 0.4, 0.2];
const counts = [0, 0, 0, 0];

for (let i = 0; i < 100000; i++) {
    counts[sampleLinear(probs)]++;
}

console.log('Linear search results:');
counts.forEach((c, i) => {
    console.log(`Index ${i}: ${(c/100000*100).toFixed(2)}% (expected ${probs[i]*100}%)`);
});

Python Version with Chi-Square Test

import random
import bisect
from scipy import stats

class ProbabilityDistribution:
    def __init__(self, probabilities):
        self.probabilities = probabilities

        # Normalize if needed
        total = sum(probabilities)
        if abs(total - 1.0) > 1e-6:
            probabilities = [p / total for p in probabilities]

        # Build CDF
        self.cdf = []
        cumulative = 0
        for p in probabilities:
            cumulative += p
            self.cdf.append(cumulative)

        self.cdf[-1] = 1.0  # Fix float errors

    def sample(self):
        r = random.random()
        # bisect_left finds insertion point
        return bisect.bisect_left(self.cdf, r)

    def sample_multiple(self, n):
        counts = [0] * len(self.probabilities)
        for _ in range(n):
            counts[self.sample()] += 1
        return counts


# Test with statistical validation
probs = [0.1, 0.3, 0.4, 0.2]
dist = ProbabilityDistribution(probs)

n_samples = 100000
samples = dist.sample_multiple(n_samples)

print("Probability Distribution Sampling")
print("=" * 50)
print(f"Sample size: {n_samples}n")

print("IndextExpectedtObservedtDiff")
for i, (expected, observed) in enumerate(zip(probs, samples)):
    expected_count = expected * n_samples
    observed_pct = observed / n_samples
    diff = abs(observed - expected_count)
    print(f"{i}t{expected*100:.1f}%tt{observed_pct*100:.2f}%tt{diff:.0f}")

# Chi-square goodness of fit test
expected_counts = [p * n_samples for p in probs]
chi2, p_value = stats.chisquare(samples, expected_counts)

print(f"nChi-square statistic: {chi2:.4f}")
print(f"P-value: {p_value:.4f}")
print(f"Result: {'PASS' if p_value > 0.05 else 'FAIL'} (α=0.05)")

Complexity Analysis

Method	Setup	Per Sample	Space
Linear Search	O(1)	O(n)	O(1)
CDF + Binary Search	O(n)	O(log n)	O(n)
Alias Method	O(n)	O(1)	O(n)

When to use each:

Linear: One-time sampling, small n
Binary: Multiple samples, medium n (most common)
Alias: Millions of samples, worth complex setup

Common Mistakes

Not normalizing: If probs sum to 0.9, last value never selected
Float precision: Use epsilon comparisons, not exact equality
Wrong binary search: Need first value >= r, not just >=
Not handling edge cases: Empty array, single element, etc.
Inefficient for repeated sampling: Rebuilding CDF each time

Follow-up Questions

How to sample from continuous distribution (e.g. Normal)? Use inverse CDF method or Box-Muller transform
Sample without replacement? Track used indices, adjust remaining probabilities
Weighted random with changing weights? Use heap or segment tree for O(log n) updates
Prove your sampling is correct? Chi-square test, KS test
Stream of probabilities? Use reservoir sampling

Real-World Applications

Monte Carlo simulation: Sampling from probability models
Game development: Loot drops, enemy spawns
A/B testing: Assigning users to experiments
Load balancing: Weighted server selection
ML training: Sampling training examples