Kỹ năng Googling
Tại sao Google có thể cho ra kết quả quá nhanh như vậy trong biển thông tin:
1. Là do Google lập chỉ mục gần như mọi thứ trên web, với hàng (chục) vạn con server cực mạnh (mỗi con lại gồm rất nhiều vi xử lý) đặt ở rất nhiều DC trên thế giới, năng lực xử lý thông tin của chúng lớn hơn hàng triệu lần so với sức mạnh PC của bác.
Tuy nhiên Google thành danh ban đầu là nhờ tiết kiệm. Sergey Brin và Larry Page xây dựng ra được một giải pháp đánh chỉ mục cực kỳ hiệu quả mà không cần phần cứng quá mạnh. Thế nên Google thay vì mua những con server đa xử lý hoành tránh như các ông lớn thời đó đã dùng những con server tự ráp với giá thành loanh quanh 1000$/con. Sergey Brin và Larry Page còn tạo ra cả một biến thể của Linux được gọi là Google OS chỉ sử dụng nội bộ nhằm kết nối các server bình thường thành một hệ máy ảo rất mạnh. Đây chính là một điểm đặc biệt của GG nhưng số lượng server này bị GG giữ bí mật để các đối thủ không đoán biết được khả năng thực sự của mình. Số lượng này chỉ được hé mở một phần khi GG nộp hồ sơ IPO, trong đó có mục liệt kê giá trị hệ thống máy chủ là 600 triệu đô, tính theo giá mỗi con tôi nói ở trên thì số lượng server của GG là 600.000 cái (đây là con số ước tính vì GG vẫn không xác nhận hay phủ nhận con số này). Đến bây giờ chắc số lượng server của GG phải là vài triệu con rồi!!!
2. Là do thuật toán lập chỉ mục, tối ưu hóa CSDL và tìm kiếm của gg được phát triển bởi hàng ngàn kỹ sư giỏi.
3. Là việc tìm kiếm trên đĩa cứng của PC là một tiến trình mang tính vật lý rất nhiều. Trong khi các thông tin chúng ta tìm trên gg có thể đang có sẵn ngay trên bộ nhớ của một đám mây server cực mạnh nào đó với tốc độ truy xuất nhanh gấp hàng ngàn lần so với đĩa cứng.
Tại sao Google tìm nhanh trên Web, nhưng khi search kiếm một cái file trên pc cũng mất cả phút, vì đó chính là thứ tài sản vô hình nhưng trị giá cả trăm tỷ đô của Google. Muốn tìm kiếm thông tin trên PC của mình một cách nhanh chóng thì không khó lắm theo một số cách sau:
Cách 1: Hãy tận dụng tính năng có sẵn bên trong Windows. Khi tìm kiếm file trên ổ, Windows sẽ thông báo là cần phải lập chỉ mục (indexing) hệ thống thì mới tìm nhanh được, người dùng cứ làm theo hướng dẫn. Sau khi quá trình lập chỉ mục hoàn tất, có thể lên đến cả ngày với những ổ đĩa cỡ TB, thì việc tìm kiếm sẽ thực hiện nhanh hơn nhiều,
Cách 2: Cài phần mềm tìm kiếm lên máy. Trước đây Google có bản Google Desktop Search (GDS) nhưng giờ đã ngừng phát triên. Thế nên lựa chọn đáng giá là Bing Desktop của Microsoft
https://www.bing.com/explore/desktop Phần mềm này sử dụng thuật toán lập chỉ mục gần tương tự Bing nên tốc độ rất ổn.
Tuy nhiên, trong thực tế vụ tìm kiếm trên PC không được chú trọng quá nhiều vì người dùng thường sắp xếp dữ liệu theo cấu trúc thư mục nên ít khi phải tìm kiếm dữ liệu lắm! Có nhiều người làm việc đặt tên tập tin đã thấy chóng mặt (không đặt theo bất kỳ một quy tắc nào), chưa nói đến cách sắp xếp thư mục sao cho khoa học. Mỗi lần tìm lại là gần như không thể. Nên tìm kiếm mà không biết mình tìm cái gì thì thua rồi!
Đề cập đến cách dùng Google thì hiệu quả:
1. Để tìm kiếm hiệu quả thì điều quan trọng nhất là biết mình tìm cái gì? Từ đây thì mới có thể chọn được từ khóa phù hợp để có được kết quả chính xác nhất. Và như vậy thì cần phải có được những hiểu biết nhất định về cái mình tìm, càng hiểu sâu thì càng dễ tìm thông tin phù hợp. Google không phải là nơi để tìm tài liệu cho những lĩnh vực mà mình hoàn toàn không biết gì.
2. Google tung đội quân robot của mình đi lùng sục khắp Internet để thu thập thông tin về và đến thới điểm này theo thống kê không chính thức (vì đây là số liệu mà Google chưa bao giờ xác nhận) thì Google đã lập chỉ mục được 100 tỷ trang web. Tuy nhiên, quá trình xử lý dữ liệu này như thế nào là điều hoàn toàn bí mật nên nếu khi tìm kiếm mà Google báo là không có thì không có nghĩa là không có. Nếu thật sự cần thông tin thì các bác hãy bỏ công tìm trong những trang web, các diễn đàn chuyên ngành vì không phải là Google biết mọi thứ như mọi người vẫn tưởng.
3. Cách đây gần 20 năm, khi mạng Internet chưa có mặt tại Việt Nam thì nguồn tư liệu duy nhất mà mọi người có được là sách báo, tạp chí. Những nguồn thông tin này bị hạn chế tiếp cận về mặt địa lý cũng như cách thức tổ chức. Nhưng đổi lại, thông tin từ những nguồn này có thể coi là đáng tin cậy để có thể sử dụng trong công việc, trong nghiên cứu. Khi Internet bùng nổ và nhất là sau khi Google thể hiện sức mạnh của mình thì người Việt Nam lại rơi vào một thái cực ngược với thời kỳ thiếu thốn thông tin trước đây là thời kỳ tràn ngập thông tin. Tuy nhiên, rất nhiều người vẫn giữ suy nghĩ cũ khi cho rằng mọi thông tin mình đọc được trên mạng đều đáng tin cậy. Điều này hoàn toàn sai lầm vì thông tin trên mạng Internet là thông tin kém tin cậy nhất trừ phi có được từ những nguồn cực kỳ đáng tin cậy. Nếu không nhớ được điều này thì người đọc từ đói thông tin lại trở thành ngộ độc thông tin. Và trên thực tế, các nguồn thông tin trên Internet không bao giờ (ít nhất là cho đến thời điểm này) được sử dụng làm tài liệu tham khảo cho các nghiên cứu nghiêm túc (ngoại trừ một số trường hợp cực kỳ đặc biệt). Vậy nên, khi dùng Google thì rất cần một mức độ hiểu biết nhất định và kỹ năng phân tích thông tin để phân biệt được đâu là thông tin đáng tin cậy và đâu là thông tin rác.
Google có từ khi nào? Và được tích hợp vào các OS từ khi nào?
Đến năm 1997 khi dùng Internet thường chọn Yahoo làm trang chủ vì dung lượng nhẹ. Lúc đó trên trang Yahoo có ô Yahoo Search nhưng dùng rất tệ nên khi Google được thành lập đã thuyết phục Yahoo sử dụng công cụ của mình thay cho Yahoo Search. Anh Yahoo lúc đó đang say men chiến thắng (trang web có số lượng truy cập lớn nhất thế giới) và nghĩ rằng sẽ mọi người sẽ chỉ cần dùng danh bạ web để tìm thông tin chứ chẳng mất công tìm kiếm làm gì. Thế là Yahoo ngờ nghệch đã để cho con sói ma lanh Google thò chân vào nhà mình. Sau 2-3 năm gì đó, khi mà Yahoo phát hiện ra mưu đồ của Google và cắt đứt hợp đồng thì đã muộn vì Google lúc đó đã đủ lông, đủ cánh để có thể đứng một mình. Người dùng Internet đã quen với việc dùng Google tìm thông tin thay vì lục lọi trong danh bạ của Yahoo! Yahoo! sau khi hất cẳng Google vội vàng tái khởi động Yahoo! Search nhưng chẳng làm nên trò trống gì. Trước khi Google trở nên độc bá như hiện nay, hồi năm khoảng 2000-2001, nhiều người vẫn dùng chương trình Corpernic có tính năng rất vui là cùng một lúc gửi yêu cầu tìm kiếm đến hàng loạt máy tìm kiếm (hình như là 15 hay 20 cái gì đó) mà Google chỉ là một trong số đó. Nhưng Google đã đánh bại tất cả để bây giờ chỉ còn mỗi Bing là lẽo đẽo được gần nhất.
Quay trở lại Google, nguyên nhân thành công của họ là gì? Đó là Google giống như tất cả những hạng công nghệ thành công nhất như MS, Apple, FB phát hiện ra rằng: "Trên thế giới rất nhiều thằng ngu nên nếu chiều chuộng những thằng ngu này sẽ có được rất nhiều tiền!




Trước thời Google, không ít người thỉnh thoảng vẫn dùng những công cụ đỉnh cao thời đó như Altavista hay Infoseek để tìm thông tin. Nhưng những công cụ này bắt người dùng có trang bị kỹ năng của kỹ sư máy tính để sử dụng khi yêu cầu câu tìm kiếm phải viết đúng cú pháp giống như cú pháp mà những người dùng các trình quản trị cơ sở dữ liệu đang sử dụng. Câu lệnh tìm kiếm phải sử dụng các toán tử AND, OR, NOT với các dầu nháy kép, dấu ngoặc đơn để tinh chỉnh kết quả tìm kiếm và câu lệnh sẽ có dạng kiểu này: ("Ông" AND ("ABC" OR "DEF") AND "là ông nào mà toàn hỏi lung tung thế?")

(Google hiện vẫn hỗ trợ câu lệnh tìm kiếm dạng này để ra những kết quả được tinh chỉnh tối đa) Google đã đầu tư vào việc xử lý hậu trường để giúp người dùng chỉ cần đánh câu tìm kiếm như khi viết thông thường và câu trên viết lại thành Ông ABC hay còn gọi là DEF là ông nào mà toàn hỏi lung tung thế?

Thời đó, nhiều chuyên gia vẫn nói nhỏ với là: "Thằng Google bị điên hay sao mà trên trang của nó chỉ có độc một ô tìm kiếm!? Muốn tìm được thông tin chính xác thì phải bắt người dùng điền thêm các thông tin như tác giả, khoảng thời gian, từ khóa v.v... chứ!?" Nhưng vì phần lớn người dùng không phải là chuyên gia nên đã hưởng ứng nhiệt liệt cách tiếp cận này (ngu mà





) và rời bỏ tất cả các công cụ khác mà chuyển sang dùng Google.
MS, Apple, FB cũng suy nghĩ tương tự khi tìm mọi cách để những thằng ngu cảm thấy không gặp khó khăn gì khi sử dụng sản phẩm của mình. Và thế là mấy chú đó kiếm được rất, rất nhiều tiền!





À tuy nhiên về phần thành công của Google khi là nó phát hiện ra rằng: "Trên thế giới rất nhiều thằng ngu nên nếu chiều chuộng những thằng ngu này sẽ có được rất nhiều tiền!" là nói cho vui, thực tế thì cuộc sống càng bận rộn, con người càng thích sự đơn giản , nên Google rất thông minh khi biến sự phức tạp trở nên đơn giản, kết quả trả lại đúng những gì họ tìm.
Cách tiếp cận ban đầu của Google là phi chuẩn vì chú trọng đến việc "tầm chương, trích cú" chứ không giúp người đọc có được một cái nhìn tổng thể về phổ tài liệu mình đang tìm kiếm. Vì thế, thực ra đối với giới học thuật cách tìm thông tin của Google không hề được coi trọng. Nhưng hai đồng chí sáng lập Google đã nhìn thấy được sự bùng nổ của Internet và đánh giá được rằng giới học thuật sẽ chỉ là thiểu số trong cộng đồng người dùng Internet. Và Google đã ưu tiên phục vụ nhóm này. Chìa khóa thành công của Google chính là thuật toán phân loại, đánh giá, xếp hạng dữ liệu để tự động chọn ra tài liệu phù hợp nhất với yêu cầu trong một mớ tài liệu hổ lốn trên Internet. Mặc dù giới học thuật rất cay cú với cách làm này nhưng vì lượng dữ liệu cần tìm kiếm quá lớn, vượt quá khả năng phân loại của hệ thống biên mục hiện có nên đành tặc lưỡi thỏa hiệp. Google sau khi có được vị trí độc tôn cũng quay trở lại tinh chỉnh thuật toán của mình nhằm phục vụ những dạng đối tượng chuyên biệt hơn bằng những CSDL mà có khi nhiều người không hề biết. Ví dụ:
- Google Patents tại địa chỉ google.com/patents chứa gần như đầy đủ các đơn sáng chế của Mỹ từ cuối thể kỷ XIX đến nay.
- Google Scholar tại địa chỉ google.com/scholar chứa các bài viết mang tính nghiên cứu, học thuật
- Google Books tại địa chỉ google.com/books chứa rất nhiều sách được số hóa
Tất cả CSDL này đều sử dụng thế mạnh của Google trong việc tìm kiếm để giúp người dùng lục lọi trong đống tài liệu này.
Tuy nhiên, có một ngộ nhận mà rất nhiều người mắc phải khi cho rằng
"Đã có Google thì không cần thư viện nữa!!!" Đây là một nhầm lẫn to lớn nhưng để phân tích rõ thì cần một chủ đề khác!
Quay lai chủ đề là mẹo tìm kiếm bằng Google thì để giới hạn phạm vi tìm kiếm của Google có thể sử dụng một số toán tử sau:
1. Site: để giới hạn vùng tên miền tìm kiếm Ví dụ: site: .congdongxaydung.vn hay site:.vn
2. Filetype: để giới hạn việc tìm kiếm bên trong một loại tập tin nào đó Ví dụ: filetype: .pdf hay filetype:doc,docx,xls
Ngoài ra Google còn hỗ trợ các cách tìm kiếm dùng ký tự đại diện (wildcard), từ đồng nghĩa v.v... nhưng hỗ trợ chủ yếu cho tiếng Anh chứ tiếng Việt mới chỉ đoán được từ không dấu và phát hiện cụm từ (nhưng như vậy đã là tốt lắm rồi). Nếu người dùng nào cầu kỳ hơn thì có thể xây dựng câu lệnh tìm kiếm với các toán tử luận lý như AND, OR, NOT nhưng như thế có vẻ đánh đố nhau quá nhỉ!?
Khi cần tìm kiếm nâng cao, với các tiêu chí tìm kiếm cụ thể, có thể vào trang Google Advanced Search :
www.google.com/advanced_search
À! Có một chuyện rất vui mà ít người để ý về kết quả tìm kiếm của Google. Đó là Google toàn bịa về số lượng kết quả mình tìm được. Nếu không tin thì mọi người có thể tự mình thử mà xem!
Cách thử như sau:
- Thử tìm kiếm một cụm từ phổ biến nào đó như "ảnh nóng ngọc trinh" chẳng hạn. Google sẽ thông báo có hơn 6 triệu trang web có cụm từ này




https://www.google.com.vn/webhp?sou...chrome-psyapi2&ie=UTF-8&q=ảnh nóng ngọc trinh
- Để xem danh sách các trang Google tìm được, người dùng sử dụng danh sách ở cuối trang và thường thì chỉ duyệt vài trang mà thôi. Tuy nhiên, nếu nhìn lại địa chỉ trên thanh địa chỉ có dạng:
https://www.google.com.vn/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=ảnh nóng ngọc trinh&start=30 sẽ thấy có tham số start=30 chính là để chỉ định kết quả đầu tiên cần hiển thị (trong trường hợp này là kết quả thứ 30). Vì Google báo rằng có hơn 6 triệu kết quả nên ta thử xem trang bét bảng nào đó (ví dụ trang thứ 100.000) tức là sửa tham số trên thành start=100000
Khi đó Google sẽ thông báo ngay là Xin lỗi, Google không trả lại trên 1000 kết quả cho bất cứ tìm kiếm nào. (Bạn đã yêu cầu kết quả bắt đầu từ 100000.) Tức là thực ra Google chỉ cần tìm 1000 kết quả chứ đoạn sau hoàn toàn có thể bịa ra vì cóc ai có thể kiểm chứng được.
Mánh này mọi người hoàn toàn có thể áp dụng trong công việc của mình khi đã tạo ra được một vị thế vững chắc nào đó!