Questão:
Os mecanismos de pesquisa precisam de permissão para iniciar a pesquisa?
user17346
2018-04-01 21:04:12 UTC
view on stackexchange narkive permalink

Eu estava conversando com meus amigos há alguns dias sobre mecanismos de pesquisa e começamos a discutir se eles precisam ou não de permissão de sites para rastreá-los. Eu pesquisei este aqui e disse no Quora que você realmente não precisa de permissão para rastreá-los, pois eles estão em domínio público e são de propriedade pública. Se os sites querem privacidade, eles podem alterar suas configurações de forma adequada.

No entanto, mais tarde, conversei com algumas outras pessoas que disseram que mecanismos de pesquisa como Google e Bing não rastreiam apenas todos os sites. Eles só rastreiam sites que estão registrados em seu SEO ou estão em seu radar e classificação - eu realmente não entendi muito esta parte - mas isso também não faz muito sentido, pois eles ainda precisam rastrear outros sites para ser atualizado.

Minha pergunta é: se eu tivesse um mecanismo de pesquisa que funcionasse quase como o Google, Bing etc., poderia começar a rastrear e exibir os resultados ou precisaria de permissão especial de trilhões de sites por aí antes que eu possa realmente executar meu mecanismo de pesquisa?

Dois respostas:
user6726
2018-04-01 21:59:53 UTC
view on stackexchange narkive permalink

"Domínio público" refere-se a coisas em princípio sujeitas a direitos autorais, mas em que a proteção expirou, foi repudiada ou é uma exceção legal (como obras do governo). Um site não é "de domínio público". A ideia de que um site é "propriedade pública" é (* tosse *) equivocada.

Existem basicamente duas maneiras pelas quais uma interação na web pode ser ilegal. O primeiro diz respeito a se acessar o computador de outra pessoa é acessar ilegalmente um computador, o que é um crime. A autorização se resume essencialmente à "permissão": se o proprietário permitir que eu acesse o computador, estou autorizado. Colocar coisas lá fora em um servidor da web é uma concessão aberta de permissão para ver uma página da web. Isso significa simplesmente que, se eu criar uma página da web (com vários links ou não), estou concedendo a você permissão para interagir com meu computador nessa medida. Ele não cria permissão para invadir um subdiretório protegido por senha. Um rastreador comum da web automatiza o que um clique humano faz.

A lei de direitos autorais também é relevante, pois o que eu coloco em minha página da web não pode ser copiado sem permissão. Qualquer acesso à página da web envolve necessariamente cópia automática de máquina para máquina: ao colocar coisas lá fora para o mundo ver, estou dizendo que o mundo pode fazer aquele nível de cópia automática que surge de interações normais de html e clique. Isso não significa que você pode baixar e fazer coisas com meu conteúdo protegido por direitos autorais (ou seja, não é um abandono dos direitos autorais: eu não coloquei essas coisas em domínio público). Colocar uma página da web de forma irrestrita significa que você deu um certo nível de permissão para "copiar" (pelo menos no sentido de visualização automática de servidor para navegador).

Posso querer impor condições ao acesso das pessoas às minhas coisas, para poder impor termos a esse material. Por exemplo, posso exigir que os usuários concordem com certas condições antes de acessar o subdiretório CoolStuff. Os usuários, então, têm que passar por um pequeno obstáculo e concordar com esses termos. Nesse caso, minha permissão é condicional e, se você violar os termos desse acordo, posso processá-lo por violação de direitos autorais. Então, poderia ser uma violação de meus termos de serviço (TOS) se eu disser "você não pode rastrear meu site" (em uma linguagem menos vaga). Um TOS obtém seu poder legal da lei de direitos autorais, porque toda interação de página da web envolve cópia (suponho que o ponto técnico seja óbvio), e a cópia só pode ser feita com permissão. Você pode superar tecnologicamente minha fraca tecnologia de click-through para que o bot apenas diga "com certeza" e passe a usar ilegalmente minha página da web: Posso processá-lo agora por violação de direitos autorais.

Os métodos específicos de robô de metatags e robots.txt não têm força legal. Embora haja uma maneira de dizer "não, você não pode", que é adaptada para acesso automatizado, o significado e a aplicação desses dispositivos ainda não chegaram à lei. Se minha página usa NOFOLLOW e seu programa não sabe ou não se importa, você (seu programa) (ainda) não tem o dever de entender, detectar e respeitar essa tag. O registro prévio também não é um requisito legal, e muitas páginas que estão na lista de rastreamento mestre são direcionadas para a página da web de outra pessoa. Novamente, não há atualmente nenhuma exigência legal de pré-registro (e não há nenhum mecanismo eficaz para verificar se o proprietário do site registrou o site).

Arquivar e especialmente reexibir o conteúdo de alguém, por outro lado, não é legal. Seria uma violação de direitos autorais se você pegasse a página da Web de outra pessoa e a hospedasse. Você pode analisar o material e de alguma forma associá-lo a alguns termos de pesquisa e exibir um link para essa página, mas não pode copiar e republicar o material. Você pode colocar trechos muito curtos retirados de uma página da web, de acordo com a doutrina do "uso justo", mas não pode republicar uma página no atacado. (Deve-se notar que o archive.org é uma biblioteca reconhecida internacionalmente e as bibliotecas têm poderes estatutários extras para arquivar).

Olha, vou ser honesto. Eu não entendi muito das coisas que você disse. Eu entendo algumas coisas, no entanto, mesmo antes de você as dizer, por exemplo, você não pode simplesmente copiar a propriedade de alguém. Mas não estou perguntando sobre nenhum tipo de cópia ou roubo de propriedade. Eu quero saber se eu tivesse um novo mecanismo de pesquisa que eu quisesse disponibilizar para exibir os resultados, eu tenho que obter permissão de trilhões de proprietários para rastrear seus sites ou posso rastrear seus sites apenas o mesmo e se eles querem proteção de privacidade por senha ou qualquer que seja seus sites para isso? Por favor, esclareça.
Então, posso simplesmente lançar meu mecanismo de busca e começar a rastrear os sites e exibir seus resultados sem nenhuma preocupação? É isso que você está dizendo, certo?
Acho que o que você diz sobre "reexibir ... não é legal" está incorreto ou, pelo menos, faltando algumas nuances. Caso contrário, archive.org, como o primeiro exemplo que vem à mente, não existiria.
@Kevin O pior que pode acontecer é um operador de site banir seus rastreadores. Se os resultados do seu site mostrarem partes significativas de direitos autorais de outras páginas (por exemplo, imagens, texto literal do site), o proprietário pode alegar violação de direitos autorais e processá-lo.
Tem havido batalhas contínuas sobre o conteúdo que pode ser exibido nos resultados da pesquisa. O Google conquistou amplamente o direito de exibir cópias de imagens de sites, mas recentemente concordou em não mais desativar os arquivos de resolução máxima na pesquisa de imagens: https://arstechnica.com/gadgets/2018/02/internet-rages-after- google-removes-view-image-button-bowing-to-getty / Além disso, além dos arquivos robots.txt, um administrador de servidor também tem mecanismos para evitar que os rastreadores acessem seus sites, já que todas as suas páginas são rastreadas regularmente por vários bots podem ser irritantes.
Não tenho certeza se entendi o que vocês querem dizer com 'partes de direitos autorais'. Quero dizer, como o Google e outros mecanismos de pesquisa funcionam é que um usuário insere palavras-chave na barra de pesquisa e o rastreador rastreia e exibe links relacionados às palavras-chave. Às vezes, há imagens, vídeos etc. relacionados às palavras-chave, mas, em última análise, quando você clica em qualquer um dos links, você é levado de volta ao site original. Então, onde exatamente surge a questão dos direitos autorais?
@kevin Por exemplo, se meu site consiste em resenhas de curtas-metragens, essas resenhas são meu conteúdo protegido por direitos autorais. Se o seu mecanismo de pesquisa exibir o texto completo da minha avaliação em seus resultados, vou ver isso como uma violação de meus direitos autorais, especialmente porque elimina o incentivo para qualquer pessoa visitar meu site. Algum lugar entre "zero" e "uma quantidade substancial" do meu conteúdo será aceitável. Google, Bing, etc. dependem de algoritmos para determinar quais páginas são "sobre" e exibir esse conteúdo - às vezes um resumo, às vezes um trecho - nos resultados de pesquisa.
@jeffronicus Exatamente. Os mecanismos de pesquisa exibem links e uma breve descrição do que trata o link. Eles não exibem o conteúdo real. Esse é o meu ponto, se uma pessoa usa um mecanismo de busca usando o processo mencionado, também aplica outros processos, como o uso de metadados. Isso implicaria que os links resultantes devem ser encontrados e, portanto, não há dúvida de ilegalidade. Estou certo ou ainda existem alguns aspectos que não compreendo?
"Arquivar e especialmente reexibir o conteúdo de alguém [...] não é legal" Tem certeza? Isso soa como [exatamente o que o cache do Google faz] (https://support.google.com/websearch/answer/1687222?hl=en).
Foi decidido em 2006 que o cache do Google não viola direitos autorais: https://www.pinsentmasons.com/out-law/news/google-cache-does-not-breach-copyright-says-court
Jon
2018-04-04 15:38:06 UTC
view on stackexchange narkive permalink

Não é realmente uma resposta, mas anseio por comentários.

Em primeiro lugar, sugiro fortemente que o OP faça uma pequena leitura online sobre SEO (otimização de mecanismos de pesquisa) e analise a história dos mecanismos de pesquisa usando a motores. O OP poderia facilmente obter uma compreensão da estrutura legal que permite aos mecanismos de pesquisa fazer o que fazem.

Google, Bing, Yahoo etc. não copiam páginas da web. Eles indexam páginas da web. Como exatamente eles fazem isso é segredo comercial. No entanto, a indexação é o processo de quebrar um corpo de texto em partes relevantes para tornar a pesquisa de um corpo de texto específico mais rápida. Se você olhasse o índice desta página, pois ele pode estar armazenado em algum lugar como o google, você não reconheceria nenhuma parte da página. A parte da página que eles mantêm é dividida em frases e palavras, perdendo quase todo o conteúdo original e o contexto humano.

(Há um arquivo da Internet https://web.archive.org/, eles têm apenas 325 bilhões de páginas, incluindo alguns sites que eu costumava ter. Eles podem ter uma página explicando como eles podem fazer isso sem serem processados.)

No índice, eles também armazenam um ponteiro, que é simplesmente a URL da página e um pequeno trecho da página original, com o qual eles exibem os resultados. Se eles realmente arquivassem as páginas, precisariam de mais armazenamento de dados do que têm, centenas de vezes mais, uma vez que o conteúdo real de uma página é apenas uma pequena quantidade dos dados que compõem a página inteira. Algo como o peso da tinta em comparação com o peso do livro.

Eles podem pegar e usar as partes que fazem para ganhar dinheiro, pois é considerado um "uso justo". Da mesma forma que um jornal faria uma resenha de livro, usando o título e trechos do livro que está resenhando. Na verdade, nos primeiros dias da Internet, quando eles estavam descobrindo a estrutura jurídica básica de pesquisa e indexação, tenho certeza de que algum advogado em algum lugar fez exatamente essa comparação.

Eles rastreiam apenas sites que estão registrados em seu SEO ou estão em seu radar e classificação - eu realmente não entendi muito essa parte - mas isso também não faz muito sentido, já que eles ainda precisam rastrear outros sites a serem atualizados.

Um site fica em seu radar por ser vinculado a um site que já está em seu índice.

Então, sim, você pode indexar todos os sites que você quer. Você simplesmente não pode copiá-los e usar essas cópias para seus próprios meios sem permissão. Mas antes de fazer isso, você deve estudar as diferenças entre copiar e qual é a dinâmica atual com o uso justo e indexar partes de um site e seu conteúdo relacionado, como imagens. Você também pode querer obter uma compreensão sobre mineração de dados, que é a arte de escrever um programa que vagueia pela Internet coletando dados, que é tudo o que um rastreador de mecanismo de pesquisa é.



Estas perguntas e respostas foram traduzidas automaticamente do idioma inglês.O conteúdo original está disponível em stackexchange, que agradecemos pela licença cc by-sa 3.0 sob a qual é distribuído.
Loading...