Não é realmente uma resposta, mas anseio por comentários.
Em primeiro lugar, sugiro fortemente que o OP faça uma pequena leitura online sobre SEO (otimização de mecanismos de pesquisa) e analise a história dos mecanismos de pesquisa usando a motores. O OP poderia facilmente obter uma compreensão da estrutura legal que permite aos mecanismos de pesquisa fazer o que fazem.
Google, Bing, Yahoo etc. não copiam páginas da web. Eles indexam páginas da web. Como exatamente eles fazem isso é segredo comercial. No entanto, a indexação é o processo de quebrar um corpo de texto em partes relevantes para tornar a pesquisa de um corpo de texto específico mais rápida. Se você olhasse o índice desta página, pois ele pode estar armazenado em algum lugar como o google, você não reconheceria nenhuma parte da página. A parte da página que eles mantêm é dividida em frases e palavras, perdendo quase todo o conteúdo original e o contexto humano.
(Há um arquivo da Internet https://web.archive.org/, eles têm apenas 325 bilhões de páginas, incluindo alguns sites que eu costumava ter. Eles podem ter uma página explicando como eles podem fazer isso sem serem processados.)
No índice, eles também armazenam um ponteiro, que é simplesmente a URL da página e um pequeno trecho da página original, com o qual eles exibem os resultados. Se eles realmente arquivassem as páginas, precisariam de mais armazenamento de dados do que têm, centenas de vezes mais, uma vez que o conteúdo real de uma página é apenas uma pequena quantidade dos dados que compõem a página inteira. Algo como o peso da tinta em comparação com o peso do livro.
Eles podem pegar e usar as partes que fazem para ganhar dinheiro, pois é considerado um "uso justo". Da mesma forma que um jornal faria uma resenha de livro, usando o título e trechos do livro que está resenhando. Na verdade, nos primeiros dias da Internet, quando eles estavam descobrindo a estrutura jurídica básica de pesquisa e indexação, tenho certeza de que algum advogado em algum lugar fez exatamente essa comparação.
Eles rastreiam apenas sites que estão registrados em seu SEO ou estão em seu radar e classificação - eu realmente não entendi muito essa parte - mas isso também não faz muito sentido, já que eles ainda precisam rastrear outros sites a serem atualizados.
Um site fica em seu radar por ser vinculado a um site que já está em seu índice.
Então, sim, você pode indexar todos os sites que você quer. Você simplesmente não pode copiá-los e usar essas cópias para seus próprios meios sem permissão. Mas antes de fazer isso, você deve estudar as diferenças entre copiar e qual é a dinâmica atual com o uso justo e indexar partes de um site e seu conteúdo relacionado, como imagens. Você também pode querer obter uma compreensão sobre mineração de dados, que é a arte de escrever um programa que vagueia pela Internet coletando dados, que é tudo o que um rastreador de mecanismo de pesquisa é.