]> git.rkrishnan.org Git - tahoe-lafs/tahoe-lafs.git/blob - NEWS
67c16ff7b00225edf921a41692f63bb88b9ec161
[tahoe-lafs/tahoe-lafs.git] / NEWS
1 User visible changes in Tahoe.  -*- outline -*-
2
3 * Release ? (?)
4
5 ** Garbage Collection
6
7 The big feature for this release is the implementation of garbage collection,
8 allowing Tahoe storage servers to delete shares for old deleted files. When
9 enabled, this uses a "mark and sweep" process: clients are responsible for
10 updating the leases on their shares (generally by running "tahoe deep-check
11 --add-lease"), and servers are allowed to delete any share which does not
12 have an up-to-date lease. The process is described in detail in
13 docs/garbage-collection.txt .
14
15 The server must be configured to enable garbage-collection, by adding
16 directives to the [storage] section that define an age limit for shares. The
17 default configuration will not delete any shares.
18
19 Both servers and clients should be upgraded to this release to make the
20 garbage-collection as pleasant as possible. 1.2.0 servers do not have the
21 code to perform the update-lease operation, while 1.3.0 servers have
22 update-lease but will return an exception for unknown storage indices,
23 causing clients to emit an Incident for each exception, slowing the add-lease
24 process down to a crawl. 1.3.0 clients did not have the add-lease operation
25 at all.
26
27 ** Security/Usability Problems Fixed
28
29 The previous codebase permitted a small timing attack (due to our use of
30 strcmp) against the write-enabler and lease-renewal/cancel secrets. An
31 attacker who could measure response-time variations of approximatly 3ns
32 against a very noisy background time of about 15ms might be able to guess
33 these secrets. We do not believe this attack was actually feasible. This
34 release closes the attack by first hashing the two strings to be compared
35 with a random secret.
36
37 A super-linear algorithm in the Merkle Tree code was fixed, which previously
38 caused e.g. download of a 10GB file to take several hours before the first
39 byte of plaintext could be produced. The new "alacrity" is about 2 minutes. A
40 future release should reduce this to a few seconds by fixing ticket #442.
41
42 ** webapi changes
43
44 In most cases, HTML tracebacks will only be sent if an "Accept: text/html"
45 header was provided with the HTTP request. This will generally cause browsers
46 to get an HTMLized traceback but send regular text/plain tracebacks to
47 non-browsers (like the CLI clients). More errors have been mapped to useful
48 HTTP error codes.
49
50 The streaming webapi operations (deep-check and manifest) now have a way to
51 indicate errors (an output line that starts with "ERROR" instead of being
52 legal JSON). See docs/frontends/webapi.txt for details.
53
54 The storage server now has its own status page (at /storage), linked from the
55 Welcome page. This page shows progress and results of the two new
56 share-crawlers: one which merely counts shares (to give an estimate of how
57 many files/directories are being stored in the grid), the other examines
58 leases and reports how much space would be freed if GC were enabled. The page
59 also shows how much disk space is present, used, reserved, and available for
60 the Tahoe server, and whether the server is currently running in "read-write"
61 mode or "read-only" mode.
62
63 When a directory node cannot be read (perhaps because of insufficent shares),
64 a minimal webapi page is created so that the "more-info" links (including a
65 Check/Repair operation) will still be accessible.
66
67 A new "reliability" page was added, with the beginnings of work on a
68 statistical loss model. You can tell this page how many servers you are using
69 and their independent failure probabilities, and it will tell you the
70 likelihood that an arbitrary file will survive each repair period. A partial
71 paper, written by Shawn Willden, has been added to
72 docs/proposed/lossmodel.lyx .
73
74 ** CLI changes
75
76 "tahoe check" and "tahoe deep-check" now accept an "--add-lease" argument, to
77 update a lease on all shares. This is the "mark" side of garbage collection.
78
79 In many cases, CLI error messages have been improved: the ugly HTMLized
80 traceback has been replaced by a normal python traceback.
81
82 "tahoe deep-check" and "tahoe manifest" now have better error reporting.
83 "tahoe cp" is now non-verbose by default.
84
85 "tahoe backup" now accepts several "--exclude" arguments, to ignore certain
86 files (like editor temporary files and version-control metadata) during
87 backup.
88
89 On windows, the CLI now accepts local paths like "c:\dir\file.txt", which
90 previously was interpreted as a Tahoe path using a "c:" alias.
91
92 The "tahoe restart" command now uses "--force" by default (meaning it will
93 start a node even if it didn't look like there was one already running).
94
95 The "tahoe debug consolidate" command was added. This takes a series of
96 independent timestamped snapshot directories (such as those created by the
97 allmydata.com windows backup program, or a series of "tahoe cp -r" commands)
98 and creates new snapshots that used shared read-only directories whenever
99 possible (like the output of "tahoe backup"). In the most common case (when
100 the snapshots are fairly similar), the result will use significantly fewer
101 directories than the original, allowing "deep-check" and similar tools to run
102 much faster. In some cases, the speedup can be an order of magnitude or more.
103 This tool is still somewhat experimental, and only needs to be run on large
104 backups produced by something other than "tahoe backup", so it was placed
105 under the "debug" category.
106
107 "tahoe cp -r --caps-only tahoe:dir localdir" is a diagnostic tool which,
108 instead of copying the full contents of files into the local directory,
109 merely copies their filecaps. This can be used to verify the results of a
110 "consolidation" operation.
111
112 ** other fixes
113
114 The codebase no longer rauses RuntimeError as a kind of assert(). Specific
115 exception classes were created for each previous instance of RuntimeError.
116
117 Many unit tests were changed to use a non-network test harness, speeding them
118 up considerably.
119
120 Deep-traversal operations (manifest and deep-check) now walk individual
121 directories in alphabetical order. Occasional turn breaks are inserted to
122 prevent a stack overflow when traversing directories with hundreds of
123 entries.
124
125 The experimental SFTP server had its path-handling logic changed slightly, to
126 accomodate more SFTP clients, although there are still issues (#645).
127
128
129 * Release 1.3.0 (2009-02-13)
130
131 ** Checker/Verifier/Repairer
132
133 The primary focus of this release has been writing a checker / verifier /
134 repairer for files and directories.  "Checking" is the act of asking storage
135 servers whether they have a share for the given file or directory: if there
136 are not enough shares available, the file or directory will be
137 unrecoverable. "Verifying" is the act of downloading and cryptographically
138 asserting that the server's share is undamaged: it requires more work
139 (bandwidth and CPU) than checking, but can catch problems that simple
140 checking cannot. "Repair" is the act of replacing missing or damaged shares
141 with new ones.
142
143 This release includes a full checker, a partial verifier, and a partial
144 repairer. The repairer is able to handle missing shares: new shares are
145 generated and uploaded to make up for the missing ones. This is currently the
146 best application of the repairer: to replace shares that were lost because of
147 server departure or permanent drive failure.
148
149 The repairer in this release is somewhat able to handle corrupted shares. The
150 limitations are:
151
152  * Immutable verifier is incomplete: not all shares are used, and not all
153    fields of those shares are verified. Therefore the immutable verifier has
154    only a moderate chance of detecting corrupted shares.
155  * The mutable verifier is mostly complete: all shares are examined, and most
156    fields of the shares are validated.
157  * The storage server protocol offers no way for the repairer to replace or
158    delete immutable shares. If corruption is detected, the repairer will
159    upload replacement shares to other servers, but the corrupted shares will
160    be left in place.
161  * read-only directories and read-only mutable files must be repaired by
162    someone who holds the write-cap: the read-cap is insufficient. Moreover,
163    the deep-check-and-repair operation will halt with an error if it attempts
164    to repair one of these read-only objects.
165  * Some forms of corruption can cause both download and repair operations to
166    fail. A future release will fix this, since download should be tolerant of
167    any corruption as long as there are at least 'k' valid shares, and repair
168    should be able to fix any file that is downloadable.
169
170 If the downloader, verifier, or repairer detects share corruption, the
171 servers which provided the bad shares will be notified (via a file placed in
172 the BASEDIR/storage/corruption-advisories directory) so their operators can
173 manually delete the corrupted shares and investigate the problem. In
174 addition, the "incident gatherer" mechanism will automatically report share
175 corruption to an incident gatherer service, if one is configured. Note that
176 corrupted shares indicate hardware failures, serious software bugs, or malice
177 on the part of the storage server operator, so a corrupted share should be
178 considered highly unusual.
179
180 By periodically checking/repairing all files and directories, objects in the
181 Tahoe filesystem remain resistant to recoverability failures due to missing
182 and/or broken servers.
183
184 This release includes a wapi mechanism to initiate checks on individual
185 files and directories (with or without verification, and with or without
186 automatic repair). A related mechanism is used to initiate a "deep-check" on
187 a directory: recursively traversing the directory and its children, checking
188 (and/or verifying/repairing) everything underneath. Both mechanisms can be
189 run with an "output=JSON" argument, to obtain machine-readable check/repair
190 status results. These results include a copy of the filesystem statistics
191 from the "deep-stats" operation (including total number of files, size
192 histogram, etc). If repair is possible, a "Repair" button will appear on the
193 results page.
194
195 The client web interface now features some extra buttons to initiate check
196 and deep-check operations. When these operations finish, they display a
197 results page that summarizes any problems that were encountered. All
198 long-running deep-traversal operations, including deep-check, use a
199 start-and-poll mechanism, to avoid depending upon a single long-lived HTTP
200 connection. docs/frontends/webapi.txt has details.
201
202 ** Efficient Backup
203
204 The "tahoe backup" command is new in this release, which creates efficient
205 versioned backups of a local directory. Given a local pathname and a target
206 Tahoe directory, this will create a read-only snapshot of the local directory
207 in $target/Archives/$timestamp. It will also create $target/Latest, which is
208 a reference to the latest such snapshot. Each time you run "tahoe backup"
209 with the same source and target, a new $timestamp snapshot will be added.
210 These snapshots will share directories that have not changed since the last
211 backup, to speed up the process and minimize storage requirements. In
212 addition, a small database is used to keep track of which local files have
213 been uploaded already, to avoid uploading them a second time. This
214 drastically reduces the work needed to do a "null backup" (when nothing has
215 changed locally), making "tahoe backup' suitable to run from a daily cronjob.
216
217 Note that the "tahoe backup" CLI command must be used in conjunction with a
218 1.3.0-or-newer Tahoe client node; there was a bug in the 1.2.0 webapi
219 implementation that would prevent the last step (create $target/Latest) from
220 working.
221
222 ** Large Files
223
224 The 12GiB (approximate) immutable-file-size limitation is lifted. This
225 release knows how to handle so-called "v2 immutable shares", which permit
226 immutable files of up to about 18 EiB (about 3*10^14). These v2 shares are
227 created if the file to be uploaded is too large to fit into v1 shares. v1
228 shares are created if the file is small enough to fit into them, so that
229 files created with tahoe-1.3.0 can still be read by earlier versions if they
230 are not too large. Note that storage servers also had to be changed to
231 support larger files, and this release is the first release in which they are
232 able to do that. Clients will detect which servers are capable of supporting
233 large files on upload and will not attempt to upload shares of a large file
234 to a server which doesn't support it.
235
236 ** FTP/SFTP Server
237
238 Tahoe now includes experimental FTP and SFTP servers. When configured with a
239 suitable method to translate username+password into a root directory cap, it
240 provides simple access to the virtual filesystem. Remember that FTP is
241 completely unencrypted: passwords, filenames, and file contents are all sent
242 over the wire in cleartext, so FTP should only be used on a local (127.0.0.1)
243 connection. This feature is still in development: there are no unit tests
244 yet, and behavior with respect to Unicode filenames is uncertain. Please see
245 docs/frontends/FTP-and-SFTP.txt for configuration details. (#512, #531)
246
247 ** CLI Changes
248
249 This release adds the 'tahoe create-alias' command, which is a combination of
250 'tahoe mkdir' and 'tahoe add-alias'. This also allows you to start using a
251 new tahoe directory without exposing its URI in the argv list, which is
252 publicly visible (through the process table) on most unix systems.  Thanks to
253 Kevin Reid for bringing this issue to our attention.
254
255 The single-argument form of "tahoe put" was changed to create an unlinked
256 file. I.e. "tahoe put bar.txt" will take the contents of a local "bar.txt"
257 file, upload them to the grid, and print the resulting read-cap; the file
258 will not be attached to any directories. This seemed a bit more useful than
259 the previous behavior (copy stdin, upload to the grid, attach the resulting
260 file into your default tahoe: alias in a child named 'bar.txt').
261
262 "tahoe put" was also fixed to handle mutable files correctly: "tahoe put
263 bar.txt URI:SSK:..." will read the contents of the local bar.txt and use them
264 to replace the contents of the given mutable file.
265
266 The "tahoe webopen" command was modified to accept aliases. This means "tahoe
267 webopen tahoe:" will cause your web browser to open to a "wui" page that
268 gives access to the directory associated with the default "tahoe:" alias. It
269 should also accept leading slashes, like "tahoe webopen tahoe:/stuff".
270
271 Many esoteric debugging commands were moved down into a "debug" subcommand:
272
273  tahoe debug dump-cap
274  tahoe debug dump-share
275  tahoe debug find-shares
276  tahoe debug catalog-shares
277  tahoe debug corrupt-share
278
279 The last command ("tahoe debug corrupt-share") flips a random bit of the
280 given local sharefile. This is used to test the file verifying/repairing
281 code, and obviously should not be used on user data.
282
283 The cli might not correctly handle arguments which contain non-ascii
284 characters in Tahoe v1.3 (although depending on your platform it
285 might, especially if your platform can be configured to pass such
286 characters on the command-line in utf-8 encoding).  See
287 http://allmydata.org/trac/tahoe/ticket/565 for details.
288
289 ** Web changes
290
291 The "default webapi port", used when creating a new client node (and in the
292 getting-started documentation), was changed from 8123 to 3456, to reduce
293 confusion when Tahoe accessed through a Firefox browser on which the
294 "Torbutton" extension has been installed. Port 8123 is occasionally used as a
295 Tor control port, so Torbutton adds 8123 to Firefox's list of "banned ports"
296 to avoid CSRF attacks against Tor. Once 8123 is banned, it is difficult to
297 diagnose why you can no longer reach a Tahoe node, so the Tahoe default was
298 changed. Note that 3456 is reserved by IANA for the "vat" protocol, but there
299 are argueably more Torbutton+Tahoe users than vat users these days. Note that
300 this will only affect newly-created client nodes. Pre-existing client nodes,
301 created by earlier versions of tahoe, may still be listening on 8123.
302
303 All deep-traversal operations (start-manifest, start-deep-size,
304 start-deep-stats, start-deep-check) now use a start-and-poll approach,
305 instead of using a single (fragile) long-running synchronous HTTP connection.
306 All these "start-" operations use POST instead of GET. The old "GET
307 manifest", "GET deep-size", and "POST deep-check" operations have been
308 removed.
309
310 The new "POST start-manifest" operation, when it finally completes, results
311 in a table of (path,cap), instead of the list of verifycaps produced by the
312 old "GET manifest". The table is available in several formats: use
313 output=html, output=text, or output=json to choose one. The JSON output also
314 includes stats, and a list of verifycaps and storage-index strings.
315
316 The "return_to=" and "when_done=" arguments have been removed from the
317 t=check and deep-check operations.
318
319 The top-level status page (/status) now has a machine-readable form, via
320 "/status/?t=json". This includes information about the currently-active
321 uploads and downloads, which may be useful for frontends that wish to display
322 progress information. There is no easy way to correlate the activities
323 displayed here with recent wapi requests, however.
324
325 Any files in BASEDIR/public_html/ (configurable) will be served in response
326 to requests in the /static/ portion of the URL space. This will simplify the
327 deployment of javascript-based frontends that can still access wapi calls
328 by conforming to the (regrettable) "same-origin policy".
329
330 The welcome page now has a "Report Incident" button, which is tied into the
331 "Incident Gatherer" machinery. If the node is attached to an incident
332 gatherer (via log_gatherer.furl), then pushing this button will cause an
333 Incident to be signalled: this means recent log events are aggregated and
334 sent in a bundle to the gatherer. The user can push this button after
335 something strange takes place (and they can provide a short message to go
336 along with it), and the relevant data will be delivered to a centralized
337 incident-gatherer for later processing by operations staff.
338
339 The "HEAD" method should now work correctly, in addition to the usual "GET",
340 "PUT", and "POST" methods. "HEAD" is supposed to return exactly the same
341 headers as "GET" would, but without any of the actual response body data. For
342 mutable files, this now does a brief mapupdate (to figure out the size of the
343 file that would be returned), without actually retrieving the file's
344 contents.
345
346 The "GET" operation on files can now support the HTTP "Range:" header,
347 allowing requests for partial content. This allows certain media players to
348 correctly stream audio and movies out of a Tahoe grid. The current
349 implementation uses a disk-based cache in BASEDIR/private/cache/download ,
350 which holds the plaintext of the files being downloaded. Future
351 implementations might not use this cache. GET for immutable files now returns
352 an ETag header.
353
354 Each file and directory now has a "Show More Info" web page, which contains
355 much of the information that was crammed into the directory page before. This
356 includes readonly URIs, storage index strings, object type, buttons to
357 control checking/verifying/repairing, and deep-check/deep-stats buttons (for
358 directories). For mutable files, the "replace contents" upload form has been
359 moved here too. As a result, the directory page is now much simpler and
360 cleaner, and several potentially-misleading links (like t=uri) are now gone.
361
362 Slashes are discouraged in Tahoe file/directory names, since they cause
363 problems when accessing the filesystem through the wapi. However, there are
364 a couple of accidental ways to generate such names. This release tries to
365 make it easier to correct such mistakes by escaping slashes in several
366 places, allowing slashes in the t=info and t=delete commands, and in the
367 source (but not the target) of a t=rename command.
368
369 ** Packaging
370
371 Tahoe's dependencies have been extended to require the "[secure_connections]"
372 feature from Foolscap, which will cause pyOpenSSL to be required and/or
373 installed. If OpenSSL and its development headers are already installed on
374 your system, this can occur automatically. Tahoe now uses pollreactor
375 (instead of the default selectreactor) to work around a bug between pyOpenSSL
376 and the most recent release of Twisted (8.1.0). This bug only affects unit
377 tests (hang during shutdown), and should not impact regular use.
378
379 The Tahoe source code tarballs now come in two different forms: regular and
380 "sumo". The regular tarball contains just Tahoe, nothing else. When building
381 from the regular tarball, the build process will download any unmet
382 dependencies from the internet (starting with the index at PyPI) so it can
383 build and install them. The "sumo" tarball contains copies of all the
384 libraries that Tahoe requires (foolscap, twisted, zfec, etc), so using the
385 "sumo" tarball should not require any internet access during the build
386 process. This can be useful if you want to build Tahoe while on an airplane,
387 a desert island, or other bandwidth-limited environments.
388
389 Similarly, allmydata.org now hosts a "tahoe-deps" tarball which contains the
390 latest versions of all these dependencies. This tarball, located at
391 http://allmydata.org/source/tahoe/deps/tahoe-deps.tar.gz, can be unpacked in
392 the tahoe source tree (or in its parent directory), and the build process
393 should satisfy its downloading needs from it instead of reaching out to PyPI.
394 This can be useful if you want to build Tahoe from a darcs checkout while on
395 that airplane or desert island.
396
397 Because of the previous two changes ("sumo" tarballs and the "tahoe-deps"
398 bundle), most of the files have been removed from misc/dependencies/ . This
399 brings the regular Tahoe tarball down to 2MB (compressed), and the darcs
400 checkout (without history) to about 7.6MB. A full darcs checkout will still
401 be fairly large (because of the historical patches which included the
402 dependent libraries), but a 'lazy' one should now be small.
403
404 The default "make" target is now an alias for "setup.py build", which itself
405 is an alias for "setup.py develop --prefix support", with some extra work
406 before and after (see setup.cfg). Most of the complicated platform-dependent
407 code in the Makefile was rewritten in Python and moved into setup.py,
408 simplifying things considerably.
409
410 Likewise, the "make test" target now delegates most of its work to "setup.py
411 test", which takes care of getting PYTHONPATH configured to access the tahoe
412 code (and dependencies) that gets put in support/lib/ by the build_tahoe
413 step. This should allow unit tests to be run even when trial (which is part
414 of Twisted) wasn't already installed (in this case, trial gets installed to
415 support/bin because Twisted is a dependency of Tahoe).
416
417 Tahoe is now compatible with the recently-released Python 2.6 , although it
418 is recommended to use Tahoe on Python 2.5, on which it has received more
419 thorough testing and deployment.
420
421 Tahoe is now compatible with simplejson-2.0.x . The previous release assumed
422 that simplejson.loads always returned unicode strings, which is no longer the
423 case in 2.0.x .
424
425 ** Grid Management Tools
426
427 Several tools have been added or updated in the misc/ directory, mostly munin
428 plugins that can be used to monitor a storage grid.
429
430 The misc/spacetime/ directory contains a "disk watcher" daemon (startable
431 with 'tahoe start'), which can be configured with a set of HTTP URLs
432 (pointing at the wapi '/statistics' page of a bunch of storage servers),
433 and will periodically fetch disk-used/disk-available information from all the
434 servers. It keeps this information in an Axiom database (a sqlite-based
435 library available from divmod.org). The daemon computes time-averaged rates
436 of disk usage, as well as a prediction of how much time is left before the
437 grid is completely full.
438
439 The misc/munin/ directory contains a new set of munin plugins
440 (tahoe_diskleft, tahoe_diskusage, tahoe_doomsday) which talk to the
441 disk-watcher and provide graphs of its calculations.
442
443 To support the disk-watcher, the Tahoe statistics component (visible through
444 the wapi at the /statistics/ URL) now includes disk-used and disk-available
445 information. Both are derived through an equivalent of the unix 'df' command
446 (i.e. they ask the kernel for the number of free blocks on the partition that
447 encloses the BASEDIR/storage directory). In the future, the disk-available
448 number will be further influenced by the local storage policy: if that policy
449 says that the server should refuse new shares when less than 5GB is left on
450 the partition, then "disk-available" will report zero even though the kernel
451 sees 5GB remaining.
452
453 The 'tahoe_overhead' munin plugin interacts with an allmydata.com-specific
454 server which reports the total of the 'deep-size' reports for all active user
455 accounts, compares this with the disk-watcher data, to report on overhead
456 percentages. This provides information on how much space could be recovered
457 once Tahoe implements some form of garbage collection.
458
459 ** Configuration Changes: single INI-format tahoe.cfg file
460
461 The Tahoe node is now configured with a single INI-format file, named
462 "tahoe.cfg", in the node's base directory. Most of the previous
463 multiple-separate-files are still read for backwards compatibility (the
464 embedded SSH debug server and the advertised_ip_addresses files are the
465 exceptions), but new directives will only be added to tahoe.cfg . The "tahoe
466 create-client" command will create a tahoe.cfg for you, with sample values
467 commented out. (ticket #518)
468
469 tahoe.cfg now has controls for the foolscap "keepalive" and "disconnect"
470 timeouts (#521).
471
472 tahoe.cfg now has controls for the encoding parameters: "shares.needed" and
473 "shares.total" in the "[client]" section. The default parameters are still
474 3-of-10.
475
476 The inefficient storage 'sizelimit' control (which established an upper bound
477 on the amount of space that a storage server is allowed to consume) has been
478 replaced by a lightweight 'reserved_space' control (which establishes a lower
479 bound on the amount of remaining space). The storage server will reject all
480 writes that would cause the remaining disk space (as measured by a '/bin/df'
481 equivalent) to drop below this value. The "[storage]reserved_space="
482 tahoe.cfg parameter controls this setting. (note that this only affects
483 immutable shares: it is an outstanding bug that reserved_space does not
484 prevent the allocation of new mutable shares, nor does it prevent the growth
485 of existing mutable shares).
486
487 ** Other Changes
488
489 Clients now declare which versions of the protocols they support. This is
490 part of a new backwards-compatibility system:
491 http://allmydata.org/trac/tahoe/wiki/Versioning .
492
493 The version strings for human inspection (as displayed on the Welcome web
494 page, and included in logs) now includes a platform identifer (frequently
495 including a linux distribution name, processor architecture, etc).
496
497 Several bugs have been fixed, including one that would cause an exception (in
498 the logs) if a wapi download operation was cancelled (by closing the TCP
499 connection, or pushing the "stop" button in a web browser).
500
501 Tahoe now uses Foolscap "Incidents", writing an "incident report" file to
502 logs/incidents/ each time something weird occurs. These reports are available
503 to an "incident gatherer" through the flogtool command. For more details,
504 please see the Foolscap logging documentation. An incident-classifying plugin
505 function is provided in misc/incident-gatherer/classify_tahoe.py .
506
507 If clients detect corruption in shares, they now automatically report it to
508 the server holding that share, if it is new enough to accept the report.
509 These reports are written to files in BASEDIR/storage/corruption-advisories .
510
511 The 'nickname' setting is now defined to be a UTF-8 -encoded string, allowing
512 non-ascii nicknames.
513
514 The 'tahoe start' command will now accept a --syslog argument and pass it
515 through to twistd, making it easier to launch non-Tahoe nodes (like the
516 cpu-watcher) and have them log to syslogd instead of a local file. This is
517 useful when running a Tahoe node out of a USB flash drive.
518
519 The Mac GUI in src/allmydata/gui/ has been improved.
520
521
522 * Release 1.2.0 (2008-07-21)
523
524 ** Security
525
526 This release makes the immutable-file "ciphertext hash tree" mandatory.
527 Previous releases allowed the uploader to decide whether their file would
528 have an integrity check on the ciphertext or not. A malicious uploader could
529 use this to create a readcap that would download as one file or a different
530 one, depending upon which shares the client fetched first, with no errors
531 raised. There are other integrity checks on the shares themselves, preventing
532 a storage server or other party from violating the integrity properties of
533 the read-cap: this failure was only exploitable by the uploader who gives you
534 a carefully constructed read-cap. If you download the file with Tahoe 1.2.0
535 or later, you will not be vulnerable to this problem. #491
536
537 This change does not introduce a compatibility issue, because all existing
538 versions of Tahoe will emit the ciphertext hash tree in their shares.
539
540 ** Dependencies
541
542 Tahoe now requires Foolscap-0.2.9 . It also requires pycryptopp 0.5 or newer,
543 since earlier versions had a bug that interacted with specific compiler
544 versions that could sometimes result in incorrect encryption behavior. Both
545 packages are included in the Tahoe source tarball in misc/dependencies/ , and
546 should be built automatically when necessary.
547
548 ** Web API
549
550 Web API directory pages should now contain properly-slash-terminated links to
551 other directories. They have also stopped using absolute links in forms and
552 pages (which interfered with the use of a front-end load-balancing proxy).
553
554 The behavior of the "Check This File" button changed, in conjunction with
555 larger internal changes to file checking/verification. The button triggers an
556 immediate check as before, but the outcome is shown on its own page, and does
557 not get stored anywhere. As a result, the web directory page no longer shows
558 historical checker results.
559
560 A new "Deep-Check" button has been added, which allows a user to initiate a
561 recursive check of the given directory and all files and directories
562 reachable from it. This can cause quite a bit of work, and has no
563 intermediate progress information or feedback about the process. In addition,
564 the results of the deep-check are extremely limited. A later release will
565 improve this behavior.
566
567 The web server's behavior with respect to non-ASCII (unicode) filenames in
568 the "GET save=true" operation has been improved. To achieve maximum
569 compatibility with variously buggy web browsers, the server does not try to
570 figure out the character set of the inbound filename. It just echoes the same
571 bytes back to the browser in the Content-Disposition header. This seems to
572 make both IE7 and Firefox work correctly.
573
574 ** Checker/Verifier/Repairer
575
576 Tahoe is slowly acquiring convenient tools to check up on file health,
577 examine existing shares for errors, and repair files that are not fully
578 healthy. This release adds a mutable checker/verifier/repairer, although
579 testing is very limited, and there are no web interfaces to trigger repair
580 yet. The "Check" button next to each file or directory on the wapi page
581 will perform a file check, and the "deep check" button on each directory will
582 recursively check all files and directories reachable from there (which may
583 take a very long time).
584
585 Future releases will improve access to this functionality.
586
587 ** Operations/Packaging
588
589 A "check-grid" script has been added, along with a Makefile target. This is
590 intended (with the help of a pre-configured node directory) to check upon the
591 health of a Tahoe grid, uploading and downloading a few files. This can be
592 used as a monitoring tool for a deployed grid, to be run periodically and to
593 signal an error if it ever fails. It also helps with compatibility testing,
594 to verify that the latest Tahoe code is still able to handle files created by
595 an older version.
596
597 The munin plugins from misc/munin/ are now copied into any generated debian
598 packages, and are made executable (and uncompressed) so they can be symlinked
599 directly from /etc/munin/plugins/ .
600
601 Ubuntu "Hardy" was added as a supported debian platform, with a Makefile
602 target to produce hardy .deb packages. Some notes have been added to
603 docs/debian.txt about building Tahoe on a debian/ubuntu system.
604
605 Storage servers now measure operation rates and latency-per-operation, and
606 provides results through the /statistics web page as well as the stats
607 gatherer. Munin plugins have been added to match.
608
609 ** Other
610
611 Tahoe nodes now use Foolscap "incident logging" to record unusual events to
612 their NODEDIR/logs/incidents/ directory. These incident files can be examined
613 by Foolscap logging tools, or delivered to an external log-gatherer for
614 further analysis. Note that Tahoe now requires Foolscap-0.2.9, since 0.2.8
615 had a bug that complained about "OSError: File exists" when trying to create
616 the incidents/ directory for a second time.
617
618 If no servers are available when retrieving a mutable file (like a
619 directory), the node now reports an error instead of hanging forever. Earlier
620 releases would not only hang (causing the wapi directory listing to get
621 stuck half-way through), but the internal dirnode serialization would cause
622 all subsequent attempts to retrieve or modify the same directory to hang as
623 well. #463
624
625 A minor internal exception (reported in logs/twistd.log, in the
626 "stopProducing" method) was fixed, which complained about "self._paused_at
627 not defined" whenever a file download was stopped from the web browser end.
628
629
630 * Release 1.1.0 (2008-06-11)
631
632 ** CLI: new "alias" model
633
634 The new CLI code uses an scp/rsync -like interface, in which directories in
635 the Tahoe storage grid are referenced by a colon-suffixed alias. The new
636 commands look like:
637  tahoe cp local.txt tahoe:virtual.txt
638  tahoe ls work:subdir
639
640 More functionality is available through the CLI: creating unlinked files and
641 directories, recursive copy in or out of the storage grid, hardlinks, and
642 retrieving the raw read- or write- caps through the 'ls' command. Please read
643 docs/CLI.txt for complete details.
644
645 ** wapi: new pages, new commands
646
647 Several new pages were added to the web API:
648
649  /helper_status : to describe what a Helper is doing
650  /statistics : reports node uptime, CPU usage, other stats
651  /file : for easy file-download URLs, see #221
652  /cap == /uri : future compatibility
653
654 The localdir=/localfile= and t=download operations were removed. These
655 required special configuration to enable anyways, but this feature was a
656 security problem, and was mostly obviated by the new "cp -r" command.
657
658 Several new options to the GET command were added:
659
660  t=deep-size : add up the size of all immutable files reachable from the directory
661  t=deep-stats : return a JSON-encoded description of number of files, size
662                 distribution, total size, etc
663
664 POST is now preferred over PUT for most operations which cause side-effects.
665
666 Most wapi calls now accept overwrite=, and default to overwrite=true .
667
668 "POST /uri/DIRCAP/parent/child?t=mkdir" is now the preferred API to create
669 multiple directories at once, rather than ...?t=mkdir-p .
670
671 PUT to a mutable file ("PUT /uri/MUTABLEFILECAP", "PUT /uri/DIRCAP/child")
672 will modify the file in-place.
673
674 ** more munin graphs in misc/munin/
675
676   tahoe-introstats
677   tahoe-rootdir-space
678   tahoe_estimate_files
679   mutable files published/retrieved
680   tahoe_cpu_watcher
681   tahoe_spacetime
682
683 ** New Dependencies
684
685   zfec 1.1.0
686   foolscap 0.2.8
687   pycryptopp 0.5
688   setuptools (now required at runtime)
689
690 ** New Mutable-File Code
691
692 The mutable-file handling code (mostly used for directories) has been
693 completely rewritten. The new scheme has a better API (with a modify()
694 method) and is less likely to lose data when several uncoordinated writers
695 change a file at the same time.
696
697 In addition, a single Tahoe process will coordinate its own writes. If you
698 make two concurrent directory-modifying wapi calls to a single tahoe node,
699 it will internally make one of them wait for the other to complete. This
700 prevents auto-collision (#391).
701
702 The new mutable-file code also detects errors during publish better. Earlier
703 releases might believe that a mutable file was published when in fact it
704 failed.
705
706 ** other features
707
708 The node now monitors its own CPU usage, as a percentage, measured every 60
709 seconds. 1/5/15 minute moving averages are available on the /statistics web
710 page and via the stats-gathering interface.
711
712 Clients now accelerate reconnection to all servers after being offline
713 (#374). When a client is offline for a long time, it scales back reconnection
714 attempts to approximately once per hour, so it may take a while to make the
715 first attempt, but once any attempt succeeds, the other server connections
716 will be retried immediately.
717
718 A new "offloaded KeyGenerator" facility can be configured, to move RSA key
719 generation out from, say, a wapi node, into a separate process. RSA keys
720 can take several seconds to create, and so a wapi node which is being used
721 for directory creation will be unavailable for anything else during this
722 time. The Key Generator process will pre-compute a small pool of keys, to
723 speed things up further. This also takes better advantage of multi-core CPUs,
724 or SMP hosts.
725
726 The node will only use a potentially-slow "du -s" command at startup (to
727 measure how much space has been used) if the "sizelimit" parameter has been
728 configured (to limit how much space is used). Large storage servers should
729 turn off sizelimit until a later release improves the space-management code,
730 since "du -s" on a terabyte filesystem can take hours.
731
732 The Introducer now allows new announcements to replace old ones, to avoid
733 buildups of obsolete announcements.
734
735 Immutable files are limited to about 12GiB (when using the default 3-of-10
736 encoding), because larger files would be corrupted by the four-byte
737 share-size field on the storage servers (#439). A later release will remove
738 this limit. Earlier releases would allow >12GiB uploads, but the resulting
739 file would be unretrievable.
740
741 The docs/ directory has been rearranged, with old docs put in
742 docs/historical/ and not-yet-implemented ones in docs/proposed/ .
743
744 The Mac OS-X FUSE plugin has a significant bug fix: earlier versions would
745 corrupt writes that used seek() instead of writing the file in linear order.
746 The rsync tool is known to perform writes in this order. This has been fixed.