Glossário: termos da série sobre Haim Shore

Explicações aprofundadas dos termos estatísticos, hebraicos e bíblicos usados na série sobre Coincidences in the Bible, de Haim Shore.

Esta página reúne, num só lugar, os termos estatísticos, hebraicos e bíblicos usados ao longo da série sobre o livro Coincidences in the Bible and in Biblical Hebrew, de Haim Shore. Cada post da série linka para a entrada correspondente na primeira vez que usa o termo. Volte aqui sempre que precisar.

Estatística

Valor numérico da palavra (VNV, DNV, ONV…)

Sigla que muda de post para post — DNV para duração (tempo), ONV para os corpos celestes, VNV para velocidade (luz e som) — mas o cálculo por trás é sempre o mesmo: a soma dos valores numéricos das letras hebraicas de uma palavra, pelo método da gematria (veja abaixo). É esse número que entra como eixo horizontal em cada gráfico de regressão da série.

Gematria

A prática judaica de calcular o valor numérico de uma palavra hebraica, somando o valor de cada letra (alef=1, bet=2… até tav=400). Importante: o método de Haim Shore não é a gematria clássica, que busca ligar duas palavras de mesmo valor por um significado simbólico comum entre elas. Shore usa apenas o número resultante como um dos dois eixos de uma regressão estatística — a outra metade da equação vem de uma medida física real, fora do texto.

Regressão linear (reta de regressão)

Técnica estatística que busca a linha reta que melhor descreve a relação entre dois conjuntos de números — nesta série, o valor numérico de palavras hebraicas de um lado, e uma medida física real (frequência, diâmetro, calor específico) do outro. Quanto mais próximos os pontos reais ficam dessa linha, mais forte é a relação encontrada.

Coeficiente de correlação (r)

Número entre -1 e 1 que mede o quanto dois conjuntos de dados se movem juntos numa relação linear. r=1 ou r=-1 é um ajuste perfeito; r=0 é nenhuma relação linear. Valores como r=0,9992 ou r=0,99992, citados ao longo da série, indicam um ajuste quase perfeito entre o valor numérico das palavras e a medida física correspondente — mas, como o texto sempre lembra, um ajuste forte com poucos pontos ainda pode ser produto do acaso.

p-valor / significância estatística

A probabilidade de obter, só por acaso, um resultado tão “bom” quanto o observado — supondo que não exista relação real nenhuma por trás dele. Quanto menor o p-valor, mais forte a evidência contra o acaso. A ciência costuma usar 5% (0,05) como limiar de referência; vários exemplos desta série relatam p-valores muito menores — p<0,021, p<0,000002 —, o que Shore lê como evidência contra a hipótese de coincidência pura. “Significância de X%” e “p<X%” descrevem, na prática, o mesmo tipo de número.

Grau de liberdade

Quantidade de informação independente que resta depois de ajustar um modelo aos dados. Com apenas três pontos — como nos exemplos de tempo, corpo humano, ou calor específico desta série —, o teste estatístico tem só um grau de liberdade, o que torna mais fácil, estatisticamente, para três pontos aleatórios parecerem alinhados por acaso, em comparação com um teste de nove pontos, como o dos planetas.

Estatística F

Medida complementar ao r que testa se o ajuste de uma regressão, como um todo, é estatisticamente significativo — isto é, se é improvável que a reta encontrada seja fruto do acaso. Valores de F maiores indicam um ajuste mais difícil de obter aleatoriamente. No exemplo dos nove planetas, F passa de 195,2 (com a Terra incluída) para 367 (sem ela).

Intervalo de confiança (IC)

Faixa em torno de uma reta de regressão dentro da qual, com um grau de confiança escolhido (95%, o mais comum), se espera que o valor “verdadeiro” caia. Um ponto que fica fora desse intervalo — como a Terra, no exemplo dos nove planetas — é, estatisticamente, um ponto fora da curva: incomum demais para ser explicado pela mesma reta que explica os outros.

Logaritmo natural (ln)

Quando os números de um gráfico variam demais em escala — a velocidade da luz e a velocidade do som diferem por um fator de quase um milhão —, o logaritmo natural (base e ≈ 2,718) “comprime” essas diferenças para que caibam de forma legível no mesmo gráfico, sem distorcer a relação entre elas. ln(1) = 0 é, por exemplo, o ponto de partida usado para a palavra hebraica que representa quietude, no post sobre luz, som e cor.

SR (estatística de simulação)

Sigla usada por Haim Shore na simulação computacional do exemplo de luz, som e quietude: um número-resumo que ele calcula para cada trio de palavras testado, real ou aleatório, em que valores distantes de zero indicam um alinhamento raro entre o valor numérico das palavras e a medida física correspondente. A fórmula exata de SR não está detalhada nas fontes consultadas para esta série — o que importa para o leitor é a comparação: os trios reais produzem SR de 1,550 e 1,056, contra uma média de -1,6725 entre dez mil trios aleatórios simulados.

Simulação computacional (método de Monte Carlo)

Em vez de calcular a probabilidade de um resultado só por fórmula, gera-se um grande número de casos aleatórios por computador — nesta série, dez mil trios de palavras hebraicas aleatórias, respeitando a frequência real das letras no texto bíblico — e mede-se quantos desses casos aleatórios produziriam, por acaso, um resultado tão bom quanto o observado. É a técnica que Shore usa para testar o exemplo de luz, som e quietude além do cálculo padrão de significância.

“Cherry picking”

Expressão em inglês (literalmente, “escolher só as cerejas”) usada em estatística para descrever a prática de selecionar, de um conjunto maior de dados, só os exemplos que confirmam uma hipótese, ignorando os que não confirmam. É a principal objeção que o próprio Shore reconhece contra seu método — e que esta série repete a cada post: escolher livremente quais palavras testar já é, em si, uma forma de viés.

Comparações múltiplas (o “jardim dos caminhos que se bifurcam”)

Quando uma análise envolve muitas escolhas metodológicas possíveis — qual método de gematria usar, qual escala adotar, qual propriedade física testar —, a chance de pelo menos uma combinação parecer estatisticamente significativa por puro acaso cresce, mesmo que nenhuma escolha tenha sido feita de má-fé. Os estatísticos Andrew Gelman e Eric Loken batizaram esse efeito de “o jardim dos caminhos que se bifurcam”, em referência ao conto de Borges: cada escolha é uma bifurcação, e o número de bifurcações possíveis — não o caminho único que terminou publicado — é o verdadeiro tamanho do teste. É diferente de “p-hacking” deliberado: o problema existe ainda que o pesquisador nunca tenha testado duas opções ao mesmo tempo, de forma consciente. Não confundir com grau de liberdade, que é uma propriedade do tamanho de uma única amostra, não da quantidade de testes possíveis.

Viés de publicação (“problema da gaveta”)

A tendência de resultados positivos ou “interessantes” circularem e serem publicados, enquanto resultados nulos ou decepcionantes ficam arquivados — “na gaveta” — e nunca chegam ao público. O termo vem de um artigo clássico do psicólogo Robert Rosenthal (1979). Sem saber quantas tentativas fracassadas ficaram fora de um livro ou artigo, é impossível avaliar se os sucessos relatados são raros ou apenas o resíduo visível de muito mais tentativas.

Revisão por pares

Processo pelo qual um artigo científico, antes de ser publicado, é lido e criticado por outros especialistas da mesma área, que podem exigir correções ou recomendar a rejeição. Não é garantia de verdade — artigos revisados por pares já foram publicados e depois refutados, como no caso da Bíblia em código, no segundo post desta série —, mas é o mecanismo padrão pelo qual a ciência submete uma alegação a olhos independentes antes de aceitá-la como conhecimento compartilhado.

Hebraico e linguística

Sequência Equidistante de Letras (ELS)

Sigla do inglês Equidistant Letter Sequence — a técnica de ler cada N-ésima letra de um texto, a partir de um ponto de partida escolhido, para revelar supostas palavras escondidas. É a base da “Bíblia em código”, testada e refutada pela mesma comunidade estatística que a publicou (ver o segundo post desta série). Diferente do método de Shore, que não depende de nenhum “número de salto” ajustável.

Bíblia e judaísmo

Midrash

Gênero de literatura judaica antiga de interpretação e comentário sobre o texto bíblico, com frequência em forma de parábola ou narrativa expandida. O Bereshit Rabbá, citado várias vezes nesta série, é um midrash sobre o livro de Gênesis.

Talmude

Compilação central da lei oral judaica e de seus comentários, organizada em torno da Mishná e redigida entre os séculos 3 e 6. É distinto do midrash, embora os dois façam parte da mesma tradição interpretativa rabínica.

ACF (Almeida Corrigida Fiel)

A tradução da Bíblia para o português usada em todas as citações bíblicas deste blog — uma revisão da tradução clássica de João Ferreira de Almeida. Outras traduções (NVI, ARC, versões em inglês) por vezes usam palavras diferentes para o mesmo versículo, o que explica pequenas diferenças de tradução mencionadas ao longo da série.

Molad

No calendário hebraico tradicional, o momento calculado da lua nova — não necessariamente o instante astronômico exato, mas o valor de referência usado pelos cálculos rabínicos para fixar os meses do calendário.

Chalakim

A unidade de tempo mais fina do calendário hebraico tradicional: 1/1080 de hora, equivalente a 3 e 1/3 segundos. Usada para expressar a duração do mês lunar com grande precisão (29 dias, 12 horas e 793 chalakim).

“Sistema B” babilônico

Um dos dois principais métodos de astronomia matemática usados na Babilônia antiga (por volta de 300 a.C.) para prever posições da lua e dos planetas. O valor da duração do mês lunar usado até hoje no calendário hebraico remonta a esse sistema, transmitido depois a Hiparco e a Ptolomeu.

Física e medicina

Terahertz (THz)

Unidade de frequência: 1 terahertz equivale a 1 trilhão de ciclos por segundo. É a escala usada para descrever a frequência da luz visível — cada cor do espectro vibra numa frequência diferente, das mais baixas (vermelho) às mais altas (violeta).

Hematócrito

Exame de sangue que mede a proporção do volume sanguíneo ocupada pelas células vermelhas (hemácias). Em adultos saudáveis, costuma variar entre 36% e 50%, dependendo do sexo.

Cromossomos e autossomos

Cromossomos são as estruturas que carregam o DNA de um organismo; o número total varia por espécie (46 no ser humano, por exemplo). Autossomos são os cromossomos comuns aos dois sexos — todos, exceto o par que determina o sexo (X e Y, no caso humano).

Falanges

Os ossos dos dedos das mãos e dos pés. Uma mão humana tem 14 falanges (três em cada um dos quatro dedos, duas no polegar) — diferente do total de ossos da mão inteira, que soma 27 ao incluir pulso e palma.

Calor específico

A quantidade de energia (em joules) necessária para elevar em um grau Celsius a temperatura de um quilograma de uma substância. Água, gelo e vapor — três fases da mesma substância — têm calores específicos bem diferentes entre si, o que permite testá-los como três pontos de uma reta.

Momento angular orbital

Medida física que combina a massa de um corpo, sua distância em relação ao que orbita, e sua velocidade orbital. É uma propriedade física diferente do diâmetro ou da massa isolada, usada por Shore como um segundo teste independente no exemplo dos nove planetas.