본문 바로가기

검색에 대한 작은 지식

구글의 차세대 웹검색 "카페인 (Caffeine)" 무엇이 달라졌나?



google-caffeine.jpg

구글의 차세대 웹검색 아키텍처(next-generation architecture for Google’s web search)인 카페인(Caffeine)이 일반에 공개 되었습니다.

IDG의 기사들과 다른 블로거들의 기사를 보니 검색 속도와 인덱스 속도가 개선되었다는 개괄적인 내용만 있어서 실제 어떻게 내부적으로 변경이 되었나 궁금해지더군요.

검색의 Ranking 알고리즘이나 아키텍처가 변경되는 것이 보통 큰 작업이 아니라는 것은 관련된 일을 해보신 분이라면 잘 아실 것입니다.

또한 검색 순위에 따라서 울고 웃는 수많은 회사들에게 미치는 파급효과를 생각하면 대단히 큰 내용입니다.

또한, SEO(Search Engine Optimiztion)으로만 먹고 사는 회사들도 많기 때문에 검색 순위가 바뀐다는 것은 검색 시장에서 엄청난 파장을 몰고 올 것입니다.

특히 구글의 시장점유율을 생각하면 더욱 그렇죠. 

Google의 market share가 5%가 안되는 한국이기 때문에 별 다른 뉴스거리가 되진 못한것으로 보입니다만,  실제 뭐가 변경이 되었는지 개인적으로 궁금증에 좀 찾아봤습니다.


기본적인 IDG의 기사부터 먼저 읽어보시죠.

FAQ 구글 카페인의 정체를 밝혀라

MattCutts 블로그에 실린 원문입니다.

구글 검색엔진에 "카페인" 투여

관련 인터뷰 동영상 입니다.




내용을 요약하자면, 내부적인 Update이고 UI상으로 바뀌는 부분이 없기 때문에 사용자가 느끼는 변화는 크지 않을 것이라고 이야기하고 있습니다.

마지막 링크를 걸어놓은 IDG기사에서도 언급하고 있지만  MS와 Yahoo의 검색제휴의 발표의 영향으로 내부적인 업데이트를 외부로 알리는 언론 플레이를 하고 있다라고 생각 할 수도 있는 부분입니다.

그렇지만 제 생각은 좀 다른데요.

이유는 개발과 튜닝 업무를 해보신 분은 아시겠지만 구글 정도의 규모의 사이트에서,  기존 10초 걸리던 Response Time을 3초로 만드는 것은 쉬운일이지만,  0.5초가 걸리는 Response Time을 0.1초로 만드는 것은 그렇게 녹녹한 일이 아닙니다.

정말 InfraStructure를 모조리 뜯어 고치지 않으면 불가능한 경우도 있습니다.

그 정도의 변화라면 언론플레이용이건 아니건 간에 뭔가 많이 달라지긴 했을 것이라고 짐작하고 있습니다.

해외 사이트들의 분석을 좀 볼까요?

Vizion and Interactive 의 분석 결과가 그나마 좀 자세하게 나와있군요.

위에서도 언급했다시피 모든 내용은 내부적인 업데이트이므로 가정(Seems to)임을 참고 해주시기 바랍니다.

http://www.vizioninteractive.com/google-caffeine-a-comprehensive-analysis/



중요한 내용만 번역해 보자면...


1. WikiPedia 검색 결과 향상

2. gov 확장자를 가지는 도메인들의 Ranking이 현저히 낮아짐 (Barack Obama 쿼리로 확인가능)

3. 하이픈 (-)을 가지지 않는 도메인에 대한 가중치가 높아짐 (즉 상위에 랭크 된다는 이야기)

4. 좋은 사이트 Structure를 가지거나, 로딩 속도가 빠른 사이트에 좀 더 높은 가중치를 준다.

5. allinanchor 와 유사한 형태의 검색결과를 제공한다.

이 부분은 설명을 좀 부연해야 할것 같네요.

allinanchor는 구글의 검색 쿼리 코멘드로써

allinanchor:쿼리

형태로 검색을 하게 되면 HTML 앵커에 쿼리가 전부 포함된 검색 결과만 찾게 됩니다.

http://www.googleguide.com/advanced_operators.html#allinanchor

비슷한 로직으로 allintitle, allinurl, allintext가 있습니다.

즉, 카페인이 Exact Match에 가까운 검색 결과를 리턴한다는 뜻인것 같습니다.


6. 필터링이나 페널티 로직은 적용이 안되어 있는 것으로 보임

7.  카페인의 이미지 검색결과는 형편없다. ㅋㅋ , 기존 이미지 검색과 완젼히 동일함.

8.  real-time 검색결과를 강조한다, 아마도 트위터에 포커스를 하여 접속(dial up, 인덱싱?)을 하고 있는듯 하다.

9. 검증된 웹사이트를 훨씬 더 선호한다. 따라서, LongTail Keyword (아주 특정한 키워드)인 경우는 그 사이트들 보다 상위에 노출되기가 힘들어진다.

10. 구글 카페인은 훨씬 더 많은 사이트들을 인덱싱한다.  이것은 아마도 더 많은 real time web을 추가 하기 위한 것으로 보인다.


제가 보기에 가장 핵심적인 내용은 더 많은 웹페이지들을 더 많이 실시간에 가깝게 인덱싱을 하고 그 검색결과는 그것보다 더 빨라졌다는 것입니다.


구글보다 더 많은 웹페이지 인덱스를 보유하고 있다는 울프램알파 ( http://www.wolframalpha.com/)  에 자존심이 상한것인지, 다양한 기능으로 위협하고 있는 Bing을 초반부터 꺽어 버리겠다는 것일지도 모르겠다는 생각이 듭니다.

느려터진 웹 크롤 주기를 가진 한국의 검색엔진들에게는 요원한 일 같습니다.

한국 웹검색엔진 크롤 주기에 대한 문제 관련하여 다음번에 다시 한번 포스팅 하겠습니다.

무더위도 막바지가 아닌가 싶습니다.

기운내시고 활기찬 한주 되시기 바랍니다.